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数据 科学 家 、 软 件 工 程 师 ， 对 机 器 学 习 、 信 息 
检索 、 数 值 计 算 可 视 化 、Web 开 发 、 计 算 机 图 
形 学 和 系统 管理 有 浓厚 的 兴趣 。 开 源 软件 包 
chemlab 和 chemview 的 开发 者 。 现 就 职 于 
Tableau 软 件 公司 。 
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内 容 提 要 


本 书 主要 介绍 如 何 让 Python 程序 发 挥 强 大 性 能 ， 内 容 涵 盖 针 对 数值 计算 和 科学 代码 的 优化 ， 以 及 用 于 
提高 Web 服务 和 应 用 响应 速度 的 策略 。 具 体内 容 有 : 基准 测试 与 剖析 、 纯 粹 的 Python 优化 、 基 于 NumPy 
和 Pandas 的 快速 数组 操作 、 使 用 Cython 获得 C 语言 性 能 、 编 译 器 探索 、 实 现 并 发 性 、 并 行 处 理 \ 分 布 式 处 理 、 
高 性 能 设计 等 。 

本 书 适合 Python 开发 人 员 阅 读 。 
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了 中 


前 


最 近 几 年 , Python 编程 语言 的 人 气急 剧 上 升 , 其 直观 而 有 趣 的 语法 及 大 量 质量 上 乘 的 第 三 方 
库 居 功 至 伟 。 很 多 大 学 的 编程 入 门 和 进 阶 课程 ， 以 及 科学 和 工程 等 数值 密集 型 领域 ， 都 选择 将 
Python 作为 编程 语言 ， 它 还 被 用 于 编写 机 器 学 习 应 用 程序 、 系 统 脚本 和 Web 应 用 程序 。 


大 家 普遍 认为 ，Python 解释 器 参考 版 CPython 比 C、C++ 和 Fortran 等 低级 语言 效率 低下 。 
CPython 之 所 以 性 能 粳 糕 ， 是 因为 程序 指令 没有 编译 成 高 效 的 机 器 码 ， 而 是 由 解释 器 处 理 。 虽 然 
使 用 解释 器 有 些 优 点 , 如 可 移植 性 以 及 可 省 略 编译 步骤 , 但 在 程序 和 机 器 之 间 增 加 了 一 个 间接 层 ， 
降低 了 执行 效率 。 


多 年 来 , 已 制定 出 很 多 克服 CPython 性 能 缺点 的 策略 。 本 书 旨 在 填补 这 方面 的 空白 ， 介 绍 如 
何 让 Python 程序 的 性 能 始终 强劲 。 

本 书 介绍 如 何 优化 数值 计算 和 科学 代码 ， 还 涵盖 了 缩短 Web 服务 和 应 用 程序 响应 时 间 的 策 
略 ， 这 些 对 很 多 读者 都 极 具 吸 引力 。 


本 书 可 按 顺 序 从 头 到 尾 地 阅读 ， 但 其 中 的 每 音 也 自 成 一 体 ， 所 以 如 果 你 已 熟悉 前 面 的 主题 ， 
直接 跳 到 感 兴趣 的 部 分 。 
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涵盖 的 内 容 
第 1 章 介绍 如 何 评估 Python 程序 的 性 能 ， 以 及 找 出 并 隔离 速度 缓慢 代码 的 实用 策略 。 


第 2 章 讨论 如 何 使 用 Python 标准 库 和 第 三 方 Python 模块 提供 的 高 效 数 据 结构 和 算法 来 缩短 
程序 的 执行 时 间 。 


第 3 章 提 供 了 NumPy 和 Pandas 包 的 使 用 指南 。 掌 握 这 些 包 后 ， 你 就 可 使 用 简洁 而 富有 表达 
力 的 接口 来 实现 快速 的 数值 算法 。 


第 4 章 是 一 个 Cython 教程 ， 这 种 语言 使 用 与 Python 兼容 的 语法 来 生成 高 效 的 C 语言 代码 。 
第 5 章 介绍 可 用 来 将 Python 代码 编译 成 高 效 机 器 码 的 工具 。 在 该 章 中 ， 你 将 学 习 如 何 使 用 
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Numba 和 PyPy， 其 中 前 者 是 一 个 Python 函数 优化 编译 器 ， 而 后 者 是 一 个 能 够 动态 地 执行 并 优化 
Python 程序 的 解释 右 











第 6 章 提供 了 异步 编程 和 响应 式 编程 指南 。 你 将 学 习 重 要 的 术语 和 概念 ,以 及 如 何 使 用 框架 
asyncio 和 RxPy 编写 整洁 的 并 发 代码 。 




















第 7 章 简 要 地 介绍 多 核 处 理 器 和 GPU 并 行 编程 。 在 该 章 中 , 你 将 学 习 如 何 使 用 模块 multi- 
processing 以 及 Theano 和 Tensorflow 来 实现 并 行 性 。 


第 8 章 是 前 一 章 内 容 的 延伸 , 专注 于 在 分 布 式 系统 上 运行 并 行 算法 来 解决 大 型 问题 和 大 数据 
处 理 问题 。 该 章 还 介绍 了 Dask、PySpark 和 mpi4py 库 。 


讨论 通用 的 优化 策略 ， 以 及 开发 、 测 试 和 部 署 高 性 能 Python 应 用 程序 的 最 佳 实践 。 
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第 9 音 








需要 什么 


本 书 的 示例 代码 都 在 Ubuntu 16.04 系统 中 使 用 Python 3.5 进行 了 测试 ， 但 这 些 示例 大 都 能 够 
在 Windows 和 Mac OS 义 操 作 系 统 上 运行 。 


推荐 使 用 Anaconda 发 行 包 来 安装 Python 和 相关 的 库 ， 这 个 发 行 包 有 用 于 Linux、Windows 
和 MacOSX 的 版 本 ， 可 从 https:/www.continuum.io/downloads 下 载 。 


为 谁 而 写 
本 书 适合 想 要 改善 应 用 程序 的 性 能 并 掌握 了 Python 基本 知识 的 Python 程序 员 阅读 。 











排版 约定 


为 将 不 同类 型 的 信息 区 分 开 来 ,本 书 使 用 了 很 多 文本 样式 .下 面 列 出 其 中 一 些 样式 及 其 含义 。 


正文 中 的 代码 、 数 据 库 表 名 、 用 户 输入 ， 使 用 如 下 样式 :“ 总 之 ,我 们 将 实现 一 个 名 为 
ParticleSsimulator.evolve_numpy 的 方法 ， 并 使 用 基准 测试 将 其 同 纯粹 的 Python 版 本 (更 
名 为 Particlesimulator.evolve_python ) 进行 比较 。” 


代码 块 使 用 如 下 样式 : 








def square (x): 


return x * x 


InPUts; sO 和 人 :23 AM] 
outputs = pool.map (square, inputs) 


于 
| 





要 让 你 注意 代码 块 的 特定 部 分 时 ， 相 关 的 代码 行 用 粗 体 表示 : 


def square (x): 


return 二 湾 


inBDutsh e0227,35: | 
outputs = pool.map(square, inputs) 


命令 行 输入 或 输出 使 用 如 下 样式 : 
$ time Python -c 'import pi; pi.pi serial()' 
real 0m0.734s 


user 0m0.731s 
SYS 0m0.004s 


新 术语 和 重要 词语 使 用 黑体 字 。 


0 此 图 标 表示 警告 或 重要 的 注意 事项 。 


(4 此 图 标 表示 提示 和 技巧 。 


读者 反馈 
欢迎 提供 反馈 ， 请 将 你 对 本 书 的 看 法 告诉 我 们 :哪些 方面 是 你 喜欢 的 ， 哪 些 方面 你 不 喜欢 。 
读者 的 反馈 对 我 们 来 说 很 重要 ， 因 为 这 可 帮助 我 们 推出 可 最 大 限度 发 挥 其 功效 的 著作 。 


要 给 我 们 提供 反馈 ， 只 需 向 feedback@packtpub.com 发 送 电子 邮件 ， 并 在 主题 中 注 明 书 名 。 


























如 果 你 有 擅长 的 主题 , 并 有 志 于 写 书 或 撰 稿 , 请 参阅 www.packtpub.com/authors 的 扎 稿 指南 。 


客户 支持 
购买 英文 版 图 书后 ， 你 将 获得 各 种 帮助 ， 让 你 购买 的 图 书 最 大 限度 地 发 挥 其 功效 。 


下 载 示 例 代 码 

你 可 访问 http:/www.packtpub.com 并 使 用 你 的 账户 下 载 本 书 的 代码 示例 文件 。 如果 你 是 在 其 
他 地 方 购买 的 本 书 , 可 访问 http:/www.packtpub.com/support 并 注册 , 以 便 我 们 将 文件 通过 电子 邮 
件 发 送 给 你 。 






































要 下 载 代码 文件 ， 可 采取 如 下 步骤 。 


(1) 访问 我 们 的 网 站 ， 使 用 电子 邮件 地 址 和 密码 注册 并 登录 。 
(2) 将 鼠标 指向 页 面 顶 部 的 标签 SUPPORT。 

(3) 单 击 Code Downloads & Errata。 

(4) 在 搜索 框 中 输入 书 名 。 

(5) 选择 要 下 载 哪 本 书 的 代码 文件 。 

(6) 从 下 拉 列 表 中 选择 该 书 是 在 哪里 购买 的 。 

(7) 单 击 Code Download。 


下 载 文件 后 ， 使 用 下 列 软件 的 最 新 版 解压 缩 : 


口 WinRAR /7-Zip ( Windows ); 
口 Zipeg/iZip /UnRarX (Mac ); 
口 7-Zip /PeaZip (Linux )。 





























本 书 的 示例 代码 还 托管 在 GitHub 上 (https:/github.com/PacktPublishing/Python-High-Performance- 
Second-Edition )。 我 们 还 在 https://github.com/PacktPublishing/ 提 供 了 众多 图 书 的 示例 代码 以 及 视 
频 ， 敬 请 访问 ! 


勘误 


我 们 万 分 小 心 , 力图 让 图 书 的 内 容 准确 无 误 ， 即 便 如 此 ， 错 误 也 在 所 难免 。 如 果 你 在 出 版 的 
图 书 中 发 现 错误 (无 论 是 正文 还 是 代码 中 的 错误 )， 请 告诉 我 们 ， 我 们 将 感激 不 尽 。 这 样 做 将 让 
其 他 读者 免 遭 同样 的 挫折 , 还 可 帮助 我 们 改进 该 书 的 后 续 版 本 。 无论 你 发 现 什 么 错误 ,都 请 告诉 
我 们 ,为 此 ,你 可 访问 http://www.packtpub.com/submit-errata, 输 入 书 名 , 单 击 链接 Errata Submission 
Form， 再 输入 你 发 现 的 错误 的 详情 。" 你 提交 的 勘误 得 到 确认 后 ， 将 被 上 传 到 我 们 的 网 站 或 添加 
到 既 有 的 勘误 列表 中 。 


要 查看 已 提交 的 勘误 ， 请 访问 https:/www.packtpub.com/books/content/support， 并 在 搜索 框 
中 输入 书 名 ，Errata 栏 将 列 出 你 搜索 的 信息 。 














打击 盗版 


在 网 上 发 布 盗 版 材料 是 个 屡 蔡 不 绝 的 问题 。 在 保护 版 权 和 许可 方面 ,本社 的 态度 非常 严肃 ， 
如 果 你 在 网 上 看 到 本 社 作品 的 非法 复制 品 , 请 马上 把 网 址 或 网 站 名 告诉 我 们 ,以 便 我 们 采取 补救 

















Q@ 中 文 版 可 访问 图 灵 社 区 本 书 主 页 www.ituring.com.cn/book/2006 提交 勘误 。 一 一 编者 注 
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请 通过 copyright@packtpub.com 与 我 们 取得 联系 ， 并 提供 你 怀疑 的 盗版 材料 的 链接 。 
对 于 你 为 保护 我 们 的 作者 和 提供 有 价值 内 容 的 能 力 提供 的 帮助 ， 我 们 感激 不 尽 。 
问题 


无 论 你 有 什么 与 本 书 相关 的 问题 ， 都 可 通过 questions@packtpub.com 与 我 们 联系 ， 我 们 将 竭 


尽 全 力 去 解决 。 


电子 书 
扫描 如 下 二 维 码 ， 即 可 购买 本 书 电子 版 。 
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基准 测试 与 剖析 








就 提高 代码 速度 而 言 ， 最 重要 的 是 找 出 程序 中 速度 缓慢 的 部 分 。 所 幸 在 大 多 数 情 况 下 ， 导 致 
应 用 程序 速度 缓慢 的 代码 都 只 占 程序 的 很 小 一 部 分 。 确 定 这 些 关 键 部 分 后 ,就 可 专注 于 需要 改进 
的 部 分 ， 避 免 将 时 间 浪 费 于 微 优 化 。 


通过 剖析 (profiling )， 可 确定 应 用 程序 的 哪些 部 分 消耗 的 资源 最 多 。 剖 析 器 (profiler ) 是 这 
样 一 种 程序 : 运行 应 用 程序 并 监控 各 个 函数 的 执行 时 间 ， 以 确定 应 用 程序 中 哪些 函数 占用 的 时 间 
最 多 。 


Python 提供 了 多 个 工具 , 可 帮助 找 出 瓶颈 并 度量 重要 的 性 能 指标 。 本 章 将 介绍 如 何 使 用 标准 
模块 cProfile 和 第 三 方 包 1ine_profiler, 还 将 介绍 如 何 使 用 工具 memory_profiler 剖析 
应 用 程序 的 内 存 占用 情况 。 本 章 还 将 介绍 另 一 个 很 有 用 的 工具 一 一 KCachegrind， 使 用 它 能 以 图 
形 化 方式 显示 各 种 剖析 器 生成 的 数据 。 


基准 测试 程序 (benchmark ) 是 用 于 评估 应 用 程序 总 体 执行 时 间 的 小 型 脚本 。 本 章 将 介绍 如 
何 编写 基准 测试 程序 以 及 如 何 准确 地 测量 程序 的 执行 时 间 。 


本 章 介 绍 如 下 主题 : 


口 通用 的 高 性 能 编程 原则 ; 

口 编写 测试 和 基准 测试 程序 ; 

口 Unix 命令 time; 

口 Python 模块 timeit; 

口 使 用 pytest 进行 测试 和 基准 测试 ; 
口 剖析 应 用 程序 ; 

口 标准 工具 cProfile; 

口 使 用 KCachegrind 解读 放 析 结果 ; 
口 工具 line profiler 和 memory_profiler; 
口 使 用 模块 gis 对 Python 代码 进行 反 汇编 。 
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1.1 设计 应 用 


程序 











就 设计 高 性 能 程序 而 言 ， 最 重要 的 是 在 编写 代码 期 间 不 进行 细微 的 优化 。 


“过 早 优 化 是 万 恶 之 源 。” 





一 一 高 德 纳 





在 开发 过 程 的 早期 阶段 , 程序 的 设计 可 能 瞬息 万 变 , 你 可 能 需要 大 规模 地 改写 和 重新 组 织 代 
码 。 在 此 阶段 ， 你 需要 对 不 同 的 原型 进行 测试 ， 而 不 进行 优化 ， 这 样 可 自由 地 分 配 时 间 和 精力 ， 
确保 程序 能 够 得 到 正确 的 结果 ,同时 具有 灵活 的 设计 。 归 根 结 底 ， 谁 都 不 想 要 一 个 运行 速度 很 快 
但 结果 却 不 正确 的 应 用 程序 。 


优化 代码 时 ， 必 须 牢记 如 下 艇 言 。 





你 能 够 对 应 月 





帮助 你 将 应 月 





口 提高 运行 速度 : 确保 程序 能 够 运行 且 结 构 优良 后 ， 就 可 专注 于 性 能 优化 了 。 例 如 ， 如 果 



































口 让 它 能 够 运行 : 必须 让 软件 能 够 运行 ， 并 确保 它 生成 的 结果 是 正确 的 。 这 个 探索 阶段 让 


程序 有 更 深入 的 认识 ， 并 在 早期 发 现 重大 设计 问题 。 








口 确保 设计 正确 : 必须 确保 程序 的 设计 是 可 靠 的 。 进 行 任何 性 能 优化 前 务必 先 重 构 ， 这 可 








旧 程 序 划分 成 独立 而 内 聚 且 易 于 维护 的 单元 。 








内 存 消耗 是 个 问题 ， 你 可 能 想 对 此 进行 优化 。 


在 本 节 中 , 我 们 
一 些 粒子 , 并 根据 我 























将 编写 一 个 粒子 模拟 器 测试 应 用 程序 并 对 其 进行 剖析 。 这 个 模拟 器 程序 接受 
们 指定 的 规则 模拟 这 些 粒 子 随时 间 流 逝 的 运动 情况 。 这 些 粒 子 可 能 是 抽象 实 





体 ， 也 可 能 是 真实 的 物体 ， 如 运动 的 桌球 、 气 体 中 的 分 子 、 在 太空 中 移动 的 星球 、 烟 雾 颗 粒 、 液 





体 等 。 








在 物理 、 化 学 、 
说 ,性 能 非常 重要 ， 

















天 文学 等 众多 学 科 中 ,计算 机 模拟 都 很 有 有 用。 对 用 于 模拟 系统 的 应 用 程序 来 
因此 科学 家 和 工程 师 会 花费 大 量 时 间 来 优化 其 代码 。 为 了 研究 真实 的 系统 ， 








通常 必须 模拟 大 量 的 实体 ， 因 此 即便 是 细微 的 性 能 提升 也 价值 不 菲 。 








在 这 个 模拟 系统 示例 中 ,包含 的 粒子 以 不 同 的 速度 绕 中 心 点 不 断 地 旋转 ， 就 像 钟表 的 指针 


一 样 。 


为 了 模拟 这 种 系统 ， 需 要 如 下 信息 : 粒子 的 起 始 位 置 、 速 度 和 旋转 方向 。 我 们 必须 根据 这 些 











信息 计算 粒子 在 下 














个 时 刻 的 位 置 。 下 图 说 明了 这 个 系统 ， 其 中 原点 为 (0,0)， 位 置 用 向 量 Xx 和 Vy 








表示 ， 而 速度 用 向 量 vx 和 Vy 表示 。 
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(x,y) 





和 














圆周 运动 的 基本 特征 是 , 粒子 的 运动 方向 始终 与 其 当前 位 置 到 中 心 点 的 线段 垂直 。 要 移动 粒 
子 ， 只 需 采 取 一 系列 非常 小 的 步骤 ( 对 应 于 系统 在 很 短 时 间 内 的 变化 )， 并 在 每 个 步骤 中 都 根据 
粒子 的 运动 方向 修改 其 位 置 ， 如 下 图 所 示 。 



































我 们 将 以 面向 对 象 的 方式 设计 这 个 应 用 程序 。 根 据 这 个 应 用 程序 的 需求 , 显然 需要 设计 一 个 


A 
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通用 的 Particle 类 ， 用 于 存储 粒子 的 位 置 (x 和 y ) 以 及 角速度 (ang_vel )。 


class Particle: 
def __init_ _(self, x, y, ang_vel): 
self.x = x 
self.y =y 
self.ang_vel = ang_vel 


请 注意 ， 这 里 所 有 的 参数 都 可 正 可 人 负 ， 其 中 ang_vel 的 符号 决定 了 旋转 方向 。 

还 需要 设计 男 一 个 类 一 一 Particlesimulator， 它 封装 了 运动 定律 ， 负 责 随时 间 流 逝 修改 
粒子 的 位 置 。 在 这 个 类 中 ,方法 _ init 存储 一 个 Particle 实例 列表 ， 而 方法 evolve 根据 
指定 的 定律 修改 粒子 的 位 置 。 

我 们 要 让 粒子 绕 坐 标 (0, 0) 以 固定 的 速度 旋转 ,而 运动 方向 总 是 与 从 粒子 当前 位 置 到 中 心 点 的 
线段 垂直 ( 参见 本 章 的 第 一 个 图 示 ), 要 将 运动 方向 表示 为 x 和 y 向 量 (Python 变量 v_x 和 v_y )， 
使 用 下 面 的 公式 即 可 。 


SY (RD FE yD) 5 
> A (> 





























V_x 
V_Y 


对 于 特定 的 粒子 ， 经 过 时 间 :后 ， 它 将 到 达 圆 周 上 的 下 一 个 位 置 。 我 们 可 以 这 样 近似 计算 圆 
周 轨迹 : 将 时 段 1 分 成 一 系列 很 小 的 时 段 dt， 在 这 些 很 小 的 时 段 内 ， 粒 子 沿 圆周 的 切线 移动 。 这 
样 就 近似 地 模拟 了 圆周 运动 。 为 避免 误差 过 大 ( 如 下 图 所 示 )， 时 段 dt 必须 非常 短 。 


[| 
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简 而 言 之 ,为 计算 经 过 时 间 t 后 的 粒子 位 置 ， 必 须 采 取 如 下 步 又 。 
(1) 计算 运动 方向 (v_x 和 v_y )。 

(2) 计算 位 移 (aG_x 和 a_y )， 即 时 段 dg、 角速度 和 移动 方向 的 乘积 。 
(3) 不 断 重复 第 (1) 步 和 第 (2) 步 ， 直 到 时 间 过 去 六 


ParticleSimulator 类 的 完整 实现 代码 如 下 : 





class ParticleSimulator: 


def _ init _(self, particles): 
self.particles = particles 


def evolve(self, dt): 
timestep = 0.00001 
nsteps = int (dt/timestep) 


for i in range (nsteps): 
for p in self.particles: 
# 1. 计算 方向 


TOP en (D2 By 0 5 
V_X = -p.y/norm 

ET 

# 2. 计算 位 移 

dx timestep * p.ang_vel * Vv x 


dy = timestep * p.ang_ vel * vy 


六 各 交 于 三 
p.y += 
# 3. 不 ， 直 到 时 间 过 去 七 


为 了 可 视 化 这 里 的 粒子 ， 可 使 用 matplot1ip 库 。 这 个 库 不 包含 在 Python 标准 库 中 ， 但 可 


er 


使 用 命令 pip install matplotlib 轻松 地 安装 它 。 


x 
dy 
断 重 





a Anaconda Python， 它 包含 matplotlib 以 及 本 书 使 用 的 其 他 大 
多 数 第 三 方 包 。Anaconda 是 免费 的 ， 可 用 于 Linux、Windows 和 Mac。 


为 了 创建 交互 式 可 视 化 , 我 们 使 用 函数 matplotlib.pyplot.ploet 以 点 的 方式 显示 粒子 , 并 
使 用 matplotlip.animation.FuncAnimation 类 以 动画 方式 显示 粒子 随时 间 流 逝 的 移动 情况 。 


函数 visualize 将 一 个 Particlesimulator 实例 作为 参数 , 并 以 动画 方式 显示 粒子 的 运 
动 轨迹 。 为 了 使 用 matplotlipb 来 显示 粒子 的 运动 规则 ， 必 须 采 取 的 步骤 如 下 。 


口 创建 并 设置 坐标 轴 ， 再 使 用 函数 plot 来 显示 粒子 。 函 数 plot 将 x 坐标 和 yy 坐标 列表 作 
为 参数 。 
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口 编写 初始 化 函数 init 和 函数 animate， 其 中 后 者 使 用 方法 line .set_gata 来 更 新 x 
和 yy 坐标。 

口 创建 一 个 FuncAnimation 实例 :传人 函数 init 和 animate 以 及 参数 interval 和 blit， 
其 中 参数 ijnterval 指定 更 新 间隔 ， 而 blit 可 改善 图 像 的 更 新 速率 。 

口 使 用 plt .show() 运 行动 画 。 











Nl 











from matplotlib import pyplot as plt 
from matplotlib import animation 





def visualize(simulator): 


Dad 
ll 


[p.x for p in simulator.particles] 
[p.y for p in simulator.particles] 


x 
ll 


fig = plt.figure!() 
ax = plt.subplot(111, aspect='equal') 
Inner eXDIOG(X YY TO) 


# 指定 坐标 轴 的 取 值 范围 
plt.xlim(-1, 1) 
plt.ylim(-1, 1) 


# 这 个 方法 将 在 动画 开始 时 运行 
def init(): 
line.set_data([], [] 
return line，# 这 里 的 喜 号 必 不 可 少 ! 


def animate ( 工 ) : 
# 我 们 让 粒子 运动 0.01 个 时 间 单 位 
simulator.evolve(0.01) 
X= [p.x for p in simulator.particles] 
Y= [p.y for p in simulator.particles] 


line.set_data(X, Y) 
return line, 


# 每 隔 10 毫秒 调用 一 次 动画 函数 
anim = animation.FuncAnimation (fig, 
animate, 
1 A 
blit=True, 
interval=10) 
plt.show!() 


为 了 测试 这 些 代 码 , 我 们 定义 了 一 个 简短 的 函数 一 一 Lest_visualize, 它 以 动画 方式 模拟 
一 个 包含 3 个 粒子 的 系统 ， 其 中 每 个 粒子 的 运动 方向 各 不 相同 。 请 注意 , 第 三 个 粒子 环绕 一 周 的 
速度 是 其 他 两 个 粒子 的 3 倍 。 




















def test_visualize() : 
particles = [Particle(0.3，0.5，1)， 
ParticLe(0y 0 EO Ly 
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Particle(-0L; S04 -3)] | 


simulator = ParticleSimulator (particles) 
visualize(simulator) 








Tf name, == '__ main 
test_visualize() 


函数 test_visualize 很 有 用 ， 可 帮助 你 直观 地 理解 系统 随时 间 流 逝 的 变化 情况 。 在 下 一 
节 ， 我 们 将 再 编写 一 些 测试 函数 ， 以 核实 这 个 程序 是 正确 的 并 测量 其 性 能 。 




















1.2 ”编写 测试 和 基准 测试 程序 


编写 管用 的 模拟 器 后 ， 便 可 着 手 测量 其 性 能 ， 并 对 代码 进行 优化 ,让 模拟 需 能 够 处 理 尽 可 能 
多 的 粒子 。 首 先 ， 我 们 将 编写 测试 和 基准 测试 程序 。 


我 们 需要 一 个 检查 模拟 结果 是 否 正确 的 测试 。 为 了 优化 程序 ,通常 必须 采取 多 种 策略 ,但 在 
反复 重 写 代 码 的 过 程 中 ,很 容易 引入 bug。 可 靠 的 测试 集 可 确保 每 次 迭代 后 实现 都 是 正确 的 ， 这 
让 我 们 能 够 大 胆 地 进行 不 同 的 尝试 , 并 深信 只 要 能 够 通过 测试 集 , 代码 就 依然 是 像 期 望 的 那样 工 
作 的 。 


我 们 的 测试 将 接受 3 个 粒子 ,模拟 0.1 个 时 间 单 位 ， 并 将 结果 与 来 自 参 考 实现 的 结果 进行 比 
较 。 为 了 组 织 测试 ， 一 种 不 错 的 方式 是 ， 对 于 应 用 程序 的 每 个 方面 (或 者 说 单元 ) 都 使 用 一 个 不 
同 的 函数 进行 测试 。 鉴 于 这 个 应 用 程序 的 功能 都 是 在 方法 evolve 中 实现 的 ,因此 我 们 将 把 测试 
函数 命名 为 test_evolve。 下 面 列 出 了 函数 test_evolve 的 实现 代码 。 请 注意 ， 为 了 对 浮 点 
数 进行 比较 ， 我 们 使 用 了 函数 fequal 来 确定 它们 的 差 在 一 定 范围 内 。 


def test_evolve(): 












































particles = [Particle( 0.3, 0.5, +1) 
Partiele(, QQ .O00 
Particle(-0.1, -0.4, +3)] 


simulator = ParticleSimulator (particles) 
simulator.evolve(0.1) 
BO nly. B22 = "DartLioLes 


def fequal(a, b, eps=1le-5): 
return abs(a - b) < eps 


assert fequal (pO0.x, 0.210269) 
assert fequal (pO0.y, 0.543863) 


assert fequal (pl.x, -0.099334) 
assert fequal (pl.y, -0.490034) 


A 
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assert fequal (p2.X，0.191358) 
assert fequal (p2.y, -0.365227) 


二 下 name == '_ main 
test_evolve() 


测试 可 确保 我 们 正确 地 实现 了 功能 , 但 几乎 没有 提供 任何 有 关 运 行 时 间 的 信息 。 基 准 测试 程 
序 是 简单 而 有 代表 性 的 用 例 , 可 通过 执行 它 来 评估 应 用 程序 的 运行 时 间 。 对 于 跟踪 程序 在 每 次 迭 
代 后 运行 速度 有 多 快 ， 基 准 测 试 程序 很 有 用 。 

为 了 编写 一 个 有 代表 性 的 基准 测试 程序 ， 我 们 可 实例 化 1000 个 坐标 和 角速度 都 是 随机 的 


eR 


Particle 对 象 ， 并 将 它们 提供 给 Particlesimulator 类 ， 然 后 让 系统 运行 0.1 个 时 间 单 位 。 

















from random import uniform 


def benchmark (): 


particles = [Particle(uniform(-1.0, 1.0), 
uniform(-1.0, 1.0), 
uniform(-1.0, 1.0)) 

for i in range(1000)] 


simulator = ParticleSimulator (particles) 
simulator.evolve(0.1) 
卫生 name 和 和 寺 main 
benchmark () 





测量 基准 测试 程序 的 运行 时 间 
要 计算 基准 测试 程序 的 运行 时 间 , 一 种 非常 简单 的 方法 是 使 用 Unix 命令 time。 通过 像 下 面 
这 样 使 用 命令 time， 可 轻松 地 测量 任何 进程 的 执行 时 间 。 











$ time Python simul.py 


real 0m1.051s 
user 0m1.022s 
SYS om0 .028s 


在 Windows 系统 中 ， 没 有 命令 time。 要 在 Windows 系统 中 安装 Unix 工具 ， 如 命 
令 time， 可 使 用 cygwin shell ( 可 从 其 官网 下 载 )。 你 也 可 使 用 类 似 的 PowerShell 
命令 来 测量 执行 时 间 ， 如 Measure-Command。 

默认 情况 下 ，time 显示 3 个 指标 。 

口 real: 从 头 到 尾 运行 进程 实际 花费 的 时 间 ， 与 人 用 秒表 测量 得 到 的 时 间 相 当 。 

Duser: 在 计算 期 间 ， 所 有 CPU 花费 的 总 时 间 。 

D sys: 在 执行 与 系统 相关 的 任务 ( 如 内 存 分 配 ) 期 间 ， 所 有 CPU 花费 的 总 时 间 。 


请 注意 ， 在 有 些 情况 下 ，user 与 sys 的 和 可 能 大 于 real， 这 是 因为 可 能 有 多 个 处 理 需 在 
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并 行 地 工作 。 





(执行 命令 man time )。 如 果 你 要 查看 有 关 所 有 指标 的 摘要 ， 可 使 用 选项 -v。 


为 测量 基准 测试 程序 的 执行 时 间 ，Unix 命令 是 最 简单 也 比较 直接 的 方式 之 一 。 为 确保 测量 
结果 是 准确 的 ， 基 准 测试 程序 的 执行 时 间 应 足够 长 〈 为 秒 级 )， 以 确保 创建 和 删除 进程 的 时 间 相 
比 于 应 用 程序 的 执行 时 间 来 说 很 短 。 指 标 user 适合 用 于 监视 CPU 的 性 能 , 而 指标 real 也 包含 
等 待 输 入 /输出 操作 期 间 用 在 其 他 进程 上 的 时 间 。 


为 了 测量 Python 脚本 的 执行 时 间 ，, 男 一 种 方便 的 方式 是 使 用 模块 timeit。 这 个 模块 在 循环 
中 运行 代码 片段 n 次 ， 并 测量 总 执行 时 间 ， 然 后 重复 这 种 操作 x (默认 为 3 ) 次 ， 并 记录 其 中 最 
短 的 那 次 时 间 。 鉴于 其 测量 时 间 的 方式 , timeit 非常 适合 用 于 准确 地 测量 少量 语句 的 执行 时 间 。 

可 在 命令 行 或 IPython 中 将 模块 timeit 作为 Python 包 执 行 。 

IPython 是 一 个 Python shell， 是 为 改善 Python 解释 器 的 交互 性 而 设计 的 。 它 支持 按 Tab 键 进 
行 补 全 ,还 提供 了 很 多 用 于 对 代码 进行 计时 、 痢 析 和 调试 的 工具 。 本 书 自始至终 都 将 使 用 这 个 shell 
来 执行 代码 片段 。IPython shell 支持 魔法 命令 ( magic command )， 即 以 符号 8 打头 的 语句 ， 这 赋 
了 予 了 它 特 殊 行 为 。 以 sg 打头 的 命名 被 称 为 单元 格 魔法 命令 , 可 应 用 于 多 行 的 代码 片段 ( 被 称 为 单 
元 格 入 

在 大 多 数 Linux 系统 中 , 都 可 通过 pip 命令 来 安装 Python。 另外 , Anaconda 也 包含 Python。 


人 time 还 提供 了 丰富 的 格式 设置 选项 ， 有 关 这 方面 的 大 致 情况 ， 可 参阅 用 户 手册 




































































可 将 IPython 作为 常规 Python shell 使 用 ( ipython )， 但 它 还 有 基于 Qt 的 版 本 
(ipython qtconsole ) 以 及 使 用 基于 浏览 器 的 界面 的 版 本 ( jupyter notebook )。 











在 Python 和 命令 行 界面 中 ， 还 可 使 用 选项 -n 和 -r 分 别 指定 循环 次 数 和 重复 次 数 。 如 果 没 
有 指定 ， timeit 将 自动 推断 出 它们 。 从 命令 行 调用 timeit 时 , 还 可 使 用 选项 -s 传人 一 些 设置 
代码 一 一 在 基准 测试 程序 之 前 执行 的 代码 。 下 面 演示 了 如 何在 IPython 和 命令 行 中 执行 timeit。 


# IPython 界面 

$ ipython 

In [1]: from simul import benchmark 
ID [2]: %timeit benchmark() 

1 loops, best of 3: 782 ms per loop 











# 命令 行 界面 
$ Python -m timeit -s 'from simul import benchmark' 'benchmark()' 
10 loops, best of 3: 826 msec per loop 


# Python 界面 
# 将 这 个 函数 放 到 脚本 simul .py 中 


import timeit 
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result = timeit.timeit('benchmark()', 
Setup='from main import benchmark', 
number=10) 


# 结果 为 整个 循环 的 执行 时 间 (单位 为 秒 ) 

result = timeit.repeat('benchmark()', 
Setup='from main import benchmark', 
number=10, 

repeat=3) 


# 结果 是 一 个 列表 ， 其 中 包含 每 次 的 执行 时 间 (这 里 重复 3 次 ) 


请 注意 ,在 命令 行 界面 和 了 Python 界面 中 , 会 自动 确定 合理 的 循环 次 数 (n ), 但 在 Python 界 
面 中 ， 必 须 通 过 参数 number 显 式 地 指定 循环 次 数 。 











1.3 使 用 pytest-benchmark 编写 更 佳 的 测试 和 基准 测试 程序 


Unix 命令 time 是 个 多 功能 工具 , 可 在 各 种 平台 上 用 来 评估 小 程序 的 执行 时 间 。 对 于 较 大 的 
Python 应 用 程序 和 库 ， 要 对 其 进行 测试 和 基准 测试 ， 一 种 更 全 面 的 解决 方案 是 结合 使 用 pytest 
及 其 插件 pytest-benchmark。 

在 本 节 中 , 我 们 将 使 用 测试 框架 pytest 为 应 用 程序 编写 一 个 简单 的 基准 测试 程序 。 如 果 读 
者 想 更 详细 地 了 解 这 个 框架 及 其 用 法 , pytest 文档 是 最 佳 的 资源 , 其 网 址 为 http://doc.pytest.org/ 
en/latest/。 





























可 在 控制 台中 使 用 命令 pip install pytest 来 安装 pytest， 其 基准 测试 插 
件 也 可 以 类 似 的 方式 安装 一 一 使 用 命令 pip install pytest-benchmark。 








测试 框架 是 一 组 测试 工具 , 可 简化 编写 、 执 行 和 调试 测试 的 工作 , 还 提供 了 丰富 的 测试 结果 
报告 和 摘要 。 使 用 框架 pytest 时 ,建议 将 测试 和 应 用 程序 代码 放 在 不 同 的 文件 中 。 在 下 面 的 示 
例 中 ， 我 们 创建 了 文件 test_simul.py, 其 中 包含 函数 test_evolve。 





from simul import Particle, ParticleSimulator 


def test_evolve() : 


particles = [Particle( 0.3, 0.5, +1) 
Particle( 0.0, -0.5, -1), 
Particle(-0.1, -0.4, +3)] 


simulator = ParticleSimulator (particles) 
simulator.evolve(0.1) 
p0, pl, p2 = particles 


def fequal(a, b, eps=1le-5): 
return abs(a - b) < eps 
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assert fedual(PpP0.X，0.210269) 
assert fequal (pO0O.y, 0.543863) 
assert fequal (pl.x, -0.099334) 
assert fequal (pl.y, -0.490034) 
assert fequal (p2.x, 0.191358) 
assert fequal (p2.y, -0.365227) 


可 在 命令 行 中 运行 可 执行 文件 pytest, 它 将 找到 并 运行 Python 模块 中 的 测试 。 要 执行 特定 
的 测试 ， 可 使 用 语法 pytest path/to/module.py::function nameo 为 执行 test_evolve, 
可 在 控制 台中 输入 如 下 命令 ， 这 将 获得 简单 但 信息 丰富 的 输出 。 








$ pytest test simul.py::test evolve 


platform linux -- Python 3.5.2, pytest-3.0.5, py-1.4.32, pluggy-0.4.0 
rootdir: /home/gabriele/workspace/hiperf/chapterl1, inifile: plugins: 
collected 2 items 


test simul.py . 








编写 好 测试 后 ， 就 可 使 用 插件 pytest-benchmark 将 测试 作为 基准 测试 程序 来 执行 。 如 果 
我 们 修改 函数 test_evolve， 使 其 接受 一 个 名 为 penchmark 的 参数 ， 框 架 pytest 将 自动 将 资 
源 benchmark 作为 参数 传递 给 这 个 函数 。 在 pytest 中 ， 这 些 资源 被 称 为 测试 夹具 ( fixture )。 
为 调用 基准 测试 资源 ， 可 将 要 作为 测试 基准 程序 的 函数 作为 第 一 个 参数 ， 并 在 它 后 面 指定 其 他 参 
数 , 下 面 演示 了 为 对 函数 Particlesimulator.evolve 进行 基准 测试 ,需要 对 代码 做 哪些 修改 。 








from simul import Particle, ParticleSimulator 


def test_evolve (benchmark): 
# 以 前 的 代码 
benchmark (simulator.evolve, 0.1) 
为 运行 基准 测试 ， 只 需 再 次 执行 命令 pytest test_simul.py::test_evolve 即 可 。 输 


出 将 包含 有 关 函 数 test_evolve 的 详细 计时 信息 ， 如 下 所 示 。 





=============================================== test session starts ================================================ 
platform Linux -- Python 3.5.2, pytest-3.0.5, py-1.4.32, pluggy-0.4.0 

benchmark: 3.0.0 (defaults: timer=time.perf_ counter disable gc=False min_rounds=5 min time=5.00us max_time=1.09s cal 
ibration precision=10 warmup=False warmup_iterations=100000) 

rootdir: /home/gabriele/workspace/hiperf/chapter1, inifile: 

plugins: benchmark-3.0.0 

collected 2 items 


test_simul.py . 


hmark: 1 tt 


Name (time in ms) Min Max Mean StdDev Median IQR Outliers(*) Rounds Iterations 


test_evolve 29.4716 41.1791 30.4622 2.0234 29.9630 0.7376 2;2 34 1 


(*) Outliers: 1 Standard Deviation from Mean; 1.5 IQR (InterQuartile Range) from 1st Quartile and 3rd Quartile. 
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对 于 收集 的 每 个 测试 ，pytest-benchmark 都 将 执行 基准 测试 函数 多 次 ， 并 提供 有 关 其 运 
行 时 间 的 统计 摘要 。 前 面 的 输出 很 有 趣 ， 因 为 它 表明 每 次 运行 时 执行 时 间 都 不 同 。 


在 这 个 示例 中 ，test_evolve 中 的 基准 测试 函数 运行 了 34 次 ( 见 Rounds 列 )， 它们 的 执 
时 间 为 29~41 毫秒 不 等 ( 见 Min 和 Max 列 )， 但 平均 值 和 中 间 值 很 接近 ， 都 是 30 毫秒 左右 ， 
与 最 短 的 执行 时 间 相当 接近 。 这 个 示例 表明 ,每 次 运行 时 性 能 差别 很 大 ， 因 此 使 用 只 进行 单 次 
计时 的 工具 (如 time ) 时 ， 最 好 运行 程序 多 次 ， 并 记录 有 代表 性 的 结果 ， 如 最 小 值 或 中 间 值 。 


pytest-benchmark 还 有 很 多 其 他 的 功能 和 选项 ， 可 用 来 精确 地 测量 时 间 和 分 析 结果 。 有 
关 这 方面 的 详细 信息 ， 可 参阅 其 文档 。 








一 人 
dl 
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1.4 使 用 cProfile 找 出 瓶颈 

核实 程序 的 正确 性 并 测量 其 执行 时 间 后 , 便 可 着 手 找 出 需要 进行 性 能 优化 的 代码 片段 了 。 与 
整个 程序 相 比 ， 这 些 代 码 的 规模 通常 很 小 。 

在 Python 标准 库 中 ， 有 两 个 剖析 模块 。 
口 模块 profile: 这 个 模块 是 完全 使 用 Python 编写 的 ， 给 程序 执行 增加 了 很 大 的 开销 。 这 
个 模块 之 所 以 出 现在 标准 库 中 ， 原 因 在 于 其 强大 的 平台 支持 和 易于 扩展 。 


口 模块 cProfile: 这 是 主要 的 剖析 模块 ， 其 接口 与 profile 相同 。 这 个 模块 是 使 用 C 语 
言 编 写 的 ， 因 此 开销 很 小 ， 适 合用 作 通 用 训 析 需 。 


可 以 三 种 不 同 的 方式 使 用 模块 cpProfile: 


D 在 命令 行 中 使 用 ; 
D 作为 Python 模块 使 用 
口 在 IPython 中 使 用 。 


无 须 对 其 源 代码 做 任何 修改 , 就 可 对 现 有 Python 脚本 或 函数 执行 cProfile。 要 在 命令 行 中 
使 用 cProfile， 可 像 下 面 这 样 做 : 

























































































$ Python -m cProfile simul.py 


这 将 打印 长 长 的 输出 , 其 中 包含 针对 应 用 程序 中 调用 的 所 有 函数 的 多 个 指标 。 要 按 特定 的 指 
标 对 输出 进行 排序 ， 可 使 用 选项 -s。 在 下 面 的 示例 中 ， 输 出 是 按 后 面 将 介绍 的 指标 tottime 排 
序 的 。 























$ python -m cProfile -s tottime simul.py 


要 将 cProfile 生成 的 数据 保存 到 输出 文件 中 , 可 使 用 选项 -o。cProfile 使 用 模块 stats 
和 其 他 工具 能 够 识别 的 格式 。 下 面 演示 了 选项 -o 的 用 法 。 


1.4 使 用 cProfile 找 出 瓶颈 





$ Python -m cProfile -o prof.out simul.py 





要 将 cProfile 作为 Python 模块 使 用 ， 必 须 像 下 面 这 样 调用 函数 cProfile.run。 


from simul import benchmark 
import cprofile 


cProfile.run("benchmark()") 


你 还 可 在 调用 对 象 cProfile.Profile 的 方法 的 代码 之 间 包 含 一 段 代 码 ， 如 下 所 示 。 


from simul import benchmark 
import cprofile 


pr = cProfile.Profile() 
pr.enable() 

benchmark () 
pr.disable() 
pr.print_stats() 


也 可 在 IPython 中 以 交互 的 方式 使 用 cProfile。 魔 法 命令 sprun 让 你 能 够 剖析 特定 的 函数 
调用 ， 如 下 图 所 示 。 


IPython: chapter1/codes 


(hperf) ipython 
Python 3.5.2 |Continuum Analytics, Inc.| (default, Jul 2 2016，17:53:06) 
Type "copyright", "credits" or "license" for more information 


IPython 5.1.6 -- An enhanced Interactive Python. 

? -> Introduction and overview of IPython's features. 
quickref -> Quick reference. 

help -> Python's own help system. 

object? -> Details about 'object', use 'object??' for extra details 


In [1]: from simul import benchmark 


In [2]: %prun benchmark() 
767 function calls in 1.231 seconds 


Ordered by: internal time 


ncalls tottime percall cumtime percall filename:lineno(function) 
和 1.230 1.230 1.230 1.230 simul.py:21(evolve) 


1 0.000 0.6000 0.001 0.001 simul.py:118(<listcomp>) 
300 0.000 600.6000 600.000 0.000 random.py:342(uniform) 
100 9.6060 09.0600 9.0600 0.666 simul.py:10( init ) 
3060 090.9000 9.600 09.000 0.000 {method 'random' of '_random.Random' objects} 
到 0.000 0.000 Fr 1.231 {built-in method builtins.exec} 
1 0.000 0.600 1.231 1.231 <string>:1(<module>) 
1 0.000 0.000 , 1.231 simul.py:117(benchmark) 
1 0.000 90.600 09.000 0.000 simul.py:18(_ init ) 
1 0.000 0.0600 0.000 0.000 {method 'disable' of '_lsprof.Profiler' objects} 
In [3]: 目 











cProfile 的 输出 分 成 了 5 列 。 


口 ncalls: 函数 被 调用 的 次 数 。 
口 tottime: 执行 浮 数 花费 的 总 时 间 ， 不 考虑 其 他 函数 调用 。 
口 cumt ime: 执行 函数 花费 的 总 时 间 ， 考 虑 其 他 函数 调用 。 























口 percall: 单 次 函数 调用 花费 的 时 间 一 一 可 通过 将 总 时 间 除 以 调用 次 数 得 到 。 
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口 filename:1lineno: 文件 名 和 相应 的 行 号 。 调 用 C 语 言 扩展 模块 时 ， 不 包含 这 种 信息 。 


最 重要 的 指标 是 tottime， 它 表示 执行 函数 体 花 费 的 实际 时 间 (不 包含 子 调用 )， 让 我 们 能 
够 知道 瓶颈 到 底 在 哪里 。 

大 部 分 时 间 都 花 在 函数 evolve 上 , 这 没什么 可 奇怪 的 。 可 以 想见 , 循环 是 需要 进行 性 能 优 
化 的 那 部 分 代码 。 

cProfile 只 提供 函数 级 信息 , 而 不 会 指出 导致 瓶颈 的 具体 是 哪些 语句 。 所 幸 工具 line_profiler 
能 够 提供 函数 中 各 行 的 时 间 花 费 信 息 ， 这 将 在 下 一 节 介绍 。 

对 于 包含 大 量 调用 和 子 调用 的 大 型 程序 来 说 ,分 析 cProfile 的 文本 输出 可 能 是 项 令 人 望 而 
却步 的 任务 。 有 一 些 可 视 化 工具 可 帮助 完成 这 些 任务 , 它们 使 用 交互 式 图形 界 面 ， 让 你 能 够 轻松 
地 导航 。 


KCachegrind 就 是 一 个 这 样 的 图 形 用 户 界面 (GUI) 工具 ， 可 帮助 你 分 析 cProfile 生成 的 
剖析 输出 。 













































































Ubuntu 16.04 官方 仓库 中 包含 KCachegrind。Windows 用 户 可 从 http://sourceforge. 
net/projects/qcachegrindwin/ 下 载 Qt port QCacheGrind。Mac 用 户 可 使 用 Mac 

(大 Ports 编译 QCacheGrind ， 至 于 如 何 编译 ， 请 参阅 博文 “Install kcachegrind on 
MacOSX with ports” 中 的 说 明 。 


KCachegrind 无 法 直接 读 取 cProfile 生成 的 输出 文件 ， 所 幸 第 三 方 Python 模块 pyprof2- 
calltree 能 够 将 cProfile 输出 文件 转换 为 KCachegrind 能 够 读 取 的 格式 。 











要 安装 Python Package Index 中 的 pyprof2calltree, 可 使 用 命令 pip instal1 
pyprof2calltree。 


为 最 大 限度 地 展示 KCachegrind 的 功能 ， 我 们 将 使 用 另 一 个 结构 更 为 多 样 化 的 示例 。 我 们 定义 
一 个 递归 函数 factorial， 还 有 另外 两 个 使 用 factorial 的 函数 一 一 taylor_exp 和 tavylor_sin， 
它们 分 别 计算 exp (x) 和 sin (x) 的 泰勒 展开 式 的 多 项 式 系数 。 


def factorial (n): 
Tf 0 
return 1.0 
else: 
return n * factorial (n-1) 


def taylor_exp (n): 
return [1.0/factorial(i) for i in range(n)] 


def taylor_sin(n): 
res = [] 


1.4 使 用 cProfile 找 出 瓶颈 
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for i in range(n): 
ET 
res.append((-1)**((i-1)/2)/float (factorial (i))) 
else: 
res.append(0.0) 
return res 


def benchmark () : 
taylor_exp(500) 
taylor_sin(500) 


if marme SE MaTn 
benchmark () 


为 访问 剖析 信息 ， 首 先 需 要 生成 cProfile 输出 文件 。 








$ Python -m cProfile -o prof.out taylor.py 
然后 ， 就 可 使 用 pyprof2calltree 对 输出 文件 进行 转换 并 启动 KCachegrind。 


$ pyprof2calltree -i prof.out -o prof.calltree 
$ kcachegrind prof.calltree # 或 使 用 命令 qcachegrind prof.calltree 


输出 如 下 面 的 屏幕 截图 所 示 。 





prof.calltree 

















站 open Back Forward 人 Up v |% Relative| 9 Cycle Detection 中 Relative to Parent  »|Nanoseconds 
Flat Profile 因 <built-in method builtins.exec> 
Search: | \(No Grouping) :| | Types | Callers | Allcallers | Callee Map | Source Code 
Incl. Self Called Function Location FT E67.09% |factorial ram32.20% 
ual 100.00 0.00 (0) a <built-in method builtin... ~ 
ml 100.00 0.00 1 到 <module> taylor.py 
ml 99.99 0.01 1 a benchmark taylor.py 
ma 99.28 mm 99.28 188 000 四 factorial taylor.py 
ml 67.33 0.00 1 taylor_exp taylor.py 
ml 67.33 0.24 1 <listcomp> taylor.py 
Li 32.65 0.41 1 taylor_sin taylor.py 
0.04 0.04 500 Dg <method 'append' of li... ~ 
0.00 0.00 (0) sm <method 'disable' of' |... ~ 


D1x 1x 


taylor_exp 


a67.33% 


taylor_sin 


m32.65% 


E250x 






Pactorial 
i187 250 x 
99.28 % 


Parts Callees | Call Graph AllCallees Caller Map Machine Code 








prof.calltree [1] - Total Nanoseconds Cost: 93 793 000 














16 第 1 章 基准 测试 与 剖析 





该 屏幕 截图 显示 了 KCachegrind 的 用 户 界面 。 左 边 的 输出 与 cProfile 的 输出 很 像 ， 但 列 名 
稍 有 不 同 : Incl 对 应 于 cProfile 模块 中 的 cumt ime， 而 Self 对 应 于 tottime。 如 果 你 单 击 荣 
单 栏 中 的 Relative 按钮 ， 将 以 百分比 的 方式 显示 值 。 通 过 单 击 列 名 ， 可 按 相应 的 属性 进行 排序 。 


在 右上 方 ， 如 果 你 单 击 标签 Callee Map，, 将 显示 一 个 函数 开销 图 。 在 该 图 中 ， 函 数 占 用 的 时 
间 百 分 比 与 矩形 面积 成 正比 。 甜 形 可 包含 子 矩 形 ， 而 这 些 子 矩 形 表示 对 其 他 函数 的 子 调用 。 在 这 
个 示例 中 ， 很 容易 看 出 有 两 个 表示 函数 factorial 的 和 矩形， 其 中 左边 那个 对 应 于 taylor_exp 
调用 的 factorial， 而 右边 那个 对 应 于 taylor_sin 调用 的 factorial。 


你 可 单 击 右边 底部 的 标签 Call Graph 来 显示 男 一 个 图 一 一 调用 图 。 调 用 图 是 函数 间 调 用 关系 
的 图 形 化 表示 ， 其 中 每 个 矩形 都 表示 一 个 函数 ， 而 箭头 表示 调用 关系 。 例 如 ，tay1lor_exp 调用 
了 factorial 500 次 , 而 taylor_sin 调用 了 factorial 250 次 。KCachegrind 还 能 够 发 现 递 
归 调 用 : factorial 调用 了 自己 187 250 次 。 


你 可 双击 矩形 来 切换 到 Call Graph 或 Caller Map 选项 卡 , 在 这 种 情况 下 , 界面 将 相应 地 更 新 ， 
指出 计时 属性 是 相对 于 选 定 函数 的 。 例 如 ， 双 击 taylor_exp 将 导致 图 形 发 生变 化 ， 只 显示 
taylor_exp 对 总 开销 的 贡献 。 





















































另 一 个 用 于 生成 调用 图 的 流行 工具 是 Gprof2Dot。 使 用 支持 的 剖析 器 生成 的 输出 
文件 启动 时 ，Gprof2Dot 将 生成 一 个 表示 调用 图 的 .dot 图 。 


1.5 使 用 1ine profiler 逐 行进 行 剖 析 


知道 哪个 函数 需要 优化 后 , 就 可 使 用 模块 1ine_profiler 来 提供 有 关 时 间 是 如 何在 各 行 之 
间 分 配 的 信息 。 在 难以 确定 哪些 语句 最 费时 时 ， 这 很 8 用。1ine_profiler 是 Python Package 
Index 提供 的 一 个 第 三 方 模块 ， 其 安装 说 明 请 参阅 https://github.com/rkern/line_profiler。 


要 使 用 line_profiler， 需 要 对 要 监视 的 函数 应 用 装饰 器 aprofile。 请 注意 ， 无 须 从 其 


他 模块 中 导入 函数 brofile， 因 为 运行 剖析 脚本 kernprof.py 时 ， 它 将 被 注入 全 局 命名 空间 。 要 
对 我 们 的 程序 进行 剖析 ， 需 要 给 函数 evolve 添加 装饰 器 @profile。 












































@profile 
def evolve(self, dt): 
# 代码 
脚本 kernprof.py 生成 一 个 输出 文件 , 并 将 剖析 结果 打印 到 标准 输出 。 运 行 这 个 脚本 时 ,应 指 
定 两 个 选项 。 


口 -1: 以 使 用 函数 line_profiler 
口 -v: 以 立即 将 结果 打印 到 屏幕 
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下 面 演示 了 kernprofpy 的 用 法 : | 


$ kernprof.py -1 -V simul.py 


也 可 在 IPython shell 中 运行 这 个 剖析 器 ， 这 样 可 以 进行 交互 式 编辑 。 你 应 首先 加 载 
line_profiler 扩展 , 它 提供 了 魔法 命令 1prun。 使 用 这 个 命令 , 就 无 须 添加 装饰 器 eprofile。 


IPython: chapter1/codes 


In [1]: %Load_ext line profiler 











In [2]: from simul import benchmark, Particlesimulator 


In [3]: %Lprun -f ParticLeSimuLator .evoLve benchmark() 
Timer unit: le-606 s 


Total time: 8.66675 s 
File: /home/gabriele/workspace/hiperf/chapter1i/codes/simul.py 
Function: evolve at line 21 











Line # Hits Time Per Hit % Time Line Contents 
21 def evolve(self, dt): 
22 1 2.9 0.0 timestep = 0.00001 
23 1 4 4.0 0.0 nsteps = int(dt/timestep) 
24 
25 10601 12561 3 0.1 for i in range(nsteps): 
26 10160009 867457 6.9 10.9 for p in self.particles 
27 
28 10060009 1859312 1.9 21.5 norm = (p.X**2 + p.yx*2)**g.5 
29 166060900 972928 1.9 和 v_x = (-p.y)/norm 
30 1000000 9216068 0.9 10.6 Vy = p.x/norm 
31 
32 10060009 982441 1.9 1423 d x = timestep * p.ang vel * vx 
33 1000069 974838 1.9 11.2 dy = timestep * p.ang vel * vy 
34 
35 1000000 1058183 1.1 12.2 pow ss dx 
36 106069090 1018915 1.6 11.8 p.y += dy 
In [4]: 用 





输出 非常 直观 ， 分 成 了 6 列 。 

口 Line #: 运行 的 代码 行 号 。 

口 Hits: 代码 行 运行 的 次 数 。 

口 Time: 代码 行 的 执行 时 间 ， 单 位 为 微 秒 。 
口 Per Hit: Tme/Hits。 

口 $ Time: 代码 行 总 执行 时 间 所 占 的 百分比 。 
口 Line Contents: 代码 行 的 内 容 。 


只 需 查 看 s Time 列 ， 就 可 清楚 地 知道 时 间 都 花 在 了 什么 地 方 。 在 这 个 示例 中 ，for 循环 中 
几 条 语句 占用 的 时 间 百 分 比 都 在 10%~20%。 











1.6 优化 代码 
确定 应 用 程序 的 大 部 分 时 间 都 花 在 什么 地 方 后 ， 就 可 做 些 修 改 ， 并 评估 修改 对 性 能 的 影响 。 


要 优化 纯粹 的 Python 代码 ,方式 有 多 种 ， 其 中 效果 最 显著 的 方式 是 对 使 用 的 算法 进行 改进 。 
就 这 个 示例 而 言 ， 相 比 于 计算 速度 并 逐步 累积 位 移 , 效率 更 高 ( 而 且 绝 对 准确 而 不 是 近似 ) 的 方 
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式 是 ， 使 用 半径 (= ) 和 角度 (alpha ) 来 表示 运动 方程 ， 再 使 用 下 面 的 方程 来 计算 粒子 在 圆周 
上 的 位 置 。 








r* cos (alpha) 
r x*x Sin(alpha) 


x 
¥ 


另 一 种 方式 是 最 大 限度 地 减少 指令 数 。 例 如 ， 可 预先 计算 不 随时 间 变 换 的 因子 timestep * 
p.ang_vel factor。 为 此 ,我 们 可 交换 循环 顺序 ( 先 迭 代 粒 子 ， 再 迭代 时 段 )， 并 将 计算 前 述 
因子 的 代码 放 在 迭代 粒子 的 循环 外 面 。 

逐 行 剖 析 结 果 还 表明 ， 即 便 是 简单 的 赋值 操作 ， 也 可 能 消耗 大 量 的 时 间 。 例如 ， 下面 的 语句 
占用 的 时 间 超 过 了 总 时 间 的 10%。 

Vv_x = (-p.y)/norm 

可 通过 减少 赋值 操作 数量 来 改善 这 个 循环 的 性 能 , 为 此 可 将 这 个 表达 式 改 写 为 单条 更 复杂 些 
的 语句 ， 以 消除 中 间 变 量 (请 注意 ， 将 先 计 算 等 号 右边 的 部 分 ， 再 将 结果 赋 给 变量 )。 


UL 














DX DY = DX = t XxX ang*pyY/nornm, DY +4 t Xx_ ang * PD.X/norm 
这 样 修改 后 的 代码 如 下 所 示 。 


def evolve_ fast (self, dt): 
timestep = 0.00001 
nsteps = int (dt/timestep) 


# 调整 了 循环 顺序 
for p in self.particles: 
t_x ang = timestep * p.ang_vel 
for i in range (nsteps): 
nOrm = (DR**2.4 DV**2) **0 ,5 
Dx DY (Du Bk dhnd wD yor 
By TR an * "BGrm) 


修改 代码 后 ， 应 运行 测试 以 核实 结果 与 以 前 相同 ， 再 使 用 基准 测试 对 执行 时 间 进 行 比较 。 


$ time python simul.py # 优化 性 能 后 























real 0m0.756s 
user 0m0.714s 
SYS 0m0.036s 


$ time python simul.py # 原来 的 代码 
real 0m0 .863s 
user 0m0 .831s 
SYS om0 .028s 


如 你 所 见 ， 进 行 纯粹 而 细微 的 Python 优化 后 ， 速 度 有 所 提高 ， 但 并 不 显著 。 
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1.7 模块 gis 


在 某 些 情况 下 , 要 估计 Python 语句 将 执行 多 少 操作 并 不 容易 。 在 本 节 中 , 我 们 将 深入 Python 
内 部 ， 以 估计 各 条 语句 的 性 能 。 在 CPython 解释 器 中 ,Python 代码 首先 被 转换 为 中 间 表示 一 一 字 
节 码 ， 再 由 Python 解释 器 执行 。 


要 了 解 代 人 码 是 如 何 转换 为 字 节 码 的 ， 可 使 用 Python 模块 ais (dis 表示 disassemble， 即 反 汇 
编 )。 这 个 模块 的 用 法 非常 简单 ， 只 需 对 目标 代码 (这 里 是 方法 Particlesimulator.evolve ) 
调用 函数 dis .dis 即 可 。 







































































import dis 
from simul import ParticleSimulator 
dis.dis(ParticleSimulator.evolve) 


这 将 打印 每 行 代码 对 应 的 字 节 码 指令 列表 。 例 如 ,语句 v_x = ( -p.y) /norm 被 转换 为 下 
面 一 组 指令 。 








29 85 LOAD_FAST 5 "(Be) 
88 LOAD_ATTR 4 (y) 
91 UNARY_NEGATIVE 
92 LOAD_FAST 6 (norm) 
95 BINARY_TRUE_DIVIDE 
96 STORE_FAST A 


其 中 LoAD_FAST 将 指向 变量 p 的 引用 加 载 到 栈 中 ， 而 LOAD_ATTR 加 载 栈 顶 元 素 的 属性 y。 其 
他 指令 ( UNARY_NEGATIVE 和 BINARY_TRUE_DIVIDE ) 只 是 对 栈 顶 元 素 执行 算术 运算 。 最 后 ， 


结果 被 存储 到 vv x 中 (STORE_FAST )。 
通过 分 析 ais 的 输出 可 知 ， 循 环 的 第 一 个 版 本 被 转换 为 51 个 字 节 码 指令 ， 而 第 二 个 版 本 被 
转换 为 35 个 指令 。 
模块 dis 能 够 让 你 知道 语句 是 如 何 被 转换 的 , 但 主要 用 作 探 索 和 学 习 Python 字 节 码 的 工具 。 
要 进一步 改善 性 能 ， 可 继续 尝试 找 出 其 他 减少 指令 数量 的 方法 。 然 而 ,这 种 方法 显然 最 终 受 
制 于 Python 解释 器 的 速度 ， 而 对 有 些 工作 来 说 ，Python 解释 器 可 能 不 是 合适 的 工具 。 在 后 续 章 
节 中 ， 我 们 将 介绍 如 何 提高 那些 受制 于 解释 器 的 计算 的 速度 一 一 执行 使 用 C 或 Fortan 等 低级 语 
言 编 写 的 快速 专用 版 本 。 















































1.8 使 用 memory_profiler 剖析 内 存 使 用 情况 


在 有 些 情况 下 ， 消 耗 大 量 的 内 存 是 个 问题 。 例 如 ， 如 果 我 们 要 处 理 大 量 的 粒子 ， 就 需要 创建 
大 量 的 Particle 实例 ， 这 将 带 来 很 大 的 内 存 开 销 。 
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模块 memory_profiler 以 类 似 于 1ine_profiler 的 方式 , 提供 有 关 进 程 内 存 使 用 情况 的 
摘要 。 


Python Package Index 也 提供 了 memory_profiler 包 。 你 应 同时 安装 模块 
psutil， 这 样 将 极 大 地 提高 memory_profiler 的 速度 。 


与 1ine_profiler 一样 , memory_profiler 也 要 求 对 源 代码 进行 处 理 : 给 要 监视 的 函数 
加 上 装饰 器 aprofile。 在 这 个 示例 中 ， 我 们 要 分 析 的 是 函数 benchmark。 


我 们 可 稍微 修改 函数 benchmark， 以 实例 化 大 量 ( 100 000 个 ) Particle 实例 ， 并 缩短 模 
拟 时 间 。 


def benchmark_memory () : 


particles = [Particle(uniform(-1.0，1.0)， 
让 这 二 下 全 站 人 人 和 DO 
uniform(-1.0, 1.0)) 

for i in range(100000)] 


simulator = ParticleSimulator (particles) 
simulator.evolve(0.001) 


我 们 可 在 IPython shell 中 使 用 memory_profiler, 为 此 可 使 用 魔法 命令 smprun， 如 下 面 的 
屏幕 截图 所 示 。 





| IPython: chapter1/codes 


ye den 5.1.0 -- An enhanced Interactive Python. 
-> Introduction and overview of IPython's features. 
ert -> Quick reference. 
help -> Python's own help System. 
ob ject? -> Details about 'object'，use 'object??' for extra details 


In [1]: %load ext memory_profiler 
In [2]: from simul import benchmark_memory 


In [3]: %mprun -f benchmark_memory benchmark_memory() 
Filename: /home/gabriele/workspace/hiperf/chapteri/codes/simul.py 











Line # Mem Usage Increment Line Contents 
142 37.8 MiB 9.9 MiB def benchmark_memory(): 
143 61.5 MiB 23.7 MiB particles = [Particle(uniform(-1.0, 1.0), 
144 uniform(-1.0, 1.0), 
145 uniform(-1.0, 1.0)) 
146 61.5 MiB 0.0 MiB for i in range(1060060)] 
147 
148 61.5 MiB 0.0 MiB simulator = ParticleSsimulator(particles) 
149 61.5 MiB 0.0 MiB simulator .evoLve(6.6061) 

In [4]: 和 





在 IPython shell 中 ， 也 可 使 用 命令 mprof run 来 运行 memory profiler， 但 
这 样 做 之 前 必须 先 给 要 监视 的 函数 添加 eprofile 装饰 器 。 


从 Increment 列 可 知 ，100 000 个 Particle 对 象 占用 了 23.7MiB 的 内 存 。 
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1MiB ( 兆 字 节 ) 相当 于 1 048 576 字 节 ， 这 不 同 于 1MB ( 百 万 字 节 )， 后 者 相当 
于 1 000 000 字 节 。 

为 减少 内 存 消耗 ， 可 在 Particle 类 中 使 用 ”slots”。 这 将 避免 将 实例 的 变量 存储 在 内 部 

字典 中 ， 从 而 节省 一 些 内 存 。 然 而 ， 这 种 策略 也 有 缺点 : 不 能 添加 slots_ “中 没有 指定 的 属性 。 








Class Particle: 
SLOSS ~ SS) tiety tyr .Ag Melt} 


def _ init__(self, x, y, ang_vel): 
self.x = x 
Self.y =y 
self.ang_vel = ang_vel 


现在 可 以 再 次 运行 基准 测试 ， 以 评估 内 存 消耗 的 变化 情况 ， 结 果 如 下 面 的 屏幕 截图 所 示 。 


IPython 5.1.6 -- An enhanced Interactive Python. 
1 -> Introduction and overview of IPython's features. 
%quickref -> Quick reference. 
-> Python's own help systenm. 
object? -> Details about 'object', use 'object??' for extra details. 





In [1]: %load ext memory_profiler 
In [2]: from simul import benchmark_memory 


In [3]: %mprun -f benchmark_memory benchmark_memory() 
Filename: /home/gabriele/workspace/hiperf/chapter1i/codes/simul.py 








Line # Mem usage Increment Line Contents 
142 38.0 MiB 0.0 MiB def benchmark_memory() 
143 51.7 MiB 13.7 MiB particles = [Particle(uniform(-1.0, 1.0) 
144 uniform(-1.0, 1.0), 
145 uniform(-1.0, 1.0)) 
146 51.7 MiB 0.0 MiB for i in range(1606060)] 
147 
148 51.7 MiB 0.0 MiB simulator = ParticleSsimulator(particles) 
149 51.7 MiB 0.0 MiB simuLator .evolve(0.601) 

In [4]: 目 





通过 使 用 ”slots。” 重 写 Particle 类 ， 节 省 了 大 约 10MiB 内 存 。 


1.9 ”小结 


本 章 介绍 了 基本 的 优化 原则 , 并 将 这 些 原则 应 用 于 一 个 测试 应 用 程序 。 优 化 时 , 首先 要 做 的 是 
测试 ， 并 找 出 应 用 程序 的 瓶颈 。 你 学 会 了 如 何 编写 基准 测试 程序 ， 以 及 如 何 使 用 Unix 命令 time、 
Python 模块 timeit 和 功能 齐备 的 pytest-benchmark 包 来 测量 基准 测试 程序 的 执行 时 间 。 你 
还 学 习 了 如 何 使 用 cProfile、1line_profiler 和 memory profiler 对 应 用 程序 进行 剖析 ， 
以 及 如 何 使 用 KCachegrind 以 图 形 化 方式 分 析 和 导航 剖析 数据 。 


下 一 章 将 探索 如 何 使 用 Python 标准 库 中 的 算法 和 数据 结构 来 改善 性 能 ， 你 将 学 习 可 伸缩 性 
( scaling )、 多 个 数据 结构 的 用 法 以 及 缓存 和 memoization 等 技巧 。 
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前 一 章 说 过 ， 要 改善 应 用 程序 的 性 能 ， 最 有 效 的 方式 之 一 是 使 用 更 合适 的 算法 和 数据 结构 。 
Python 标准 库 提 供 了 大 量 现成 的 算法 和 数据 结构 , 你 可 在 应 用 程序 中 直接 使 用 它们 。 有 了 本 章 介 
绍 的 工具 ， 你 就 能 够 使 用 合适 的 算法 来 完成 任务 ， 从 而 极 大 地 提升 速度 。 


虽然 很 多 算法 历史 悠久 , 但 它们 在 当今 世界 依然 适用 , 这 是 因为 我 们 在 不 断 地 生成 、 使 用 和 
分 析 越 来 越 多 的 数据 。 在 有 些 情 况 下 ， 购 买 规模 更 大 的 服务 器 或 进行 微 优 化 行 之 有 效 , 但 通过 改 
进 算法 来 增强 可 伸缩 性 可 一 劳 永 逸 地 解决 问题 。 
本 章 将 介绍 如 何 使 用 标准 算法 和 数据 结构 来 增强 可 伸缩 性 , 并 利用 第 三 方 库 阐述 更 复杂 的 用 
例 。 本 章 还 将 介绍 实现 缓存 的 工具 ， 缓 存 是 一 种 以 内 存 或 磁盘 空间 换取 响应 时 间 的 技巧 。 
本 章 将 介绍 的 主题 如 下 : 
口 计算 复杂 性 ; 
口 列表 和 队列 ; 





















































口 字典 ; 
口 如 何 使 用 字典 创建 反 向 索引 ; 
口 集 ; 


口 堆 和 优先 队列 ; 

口 使 用 字典 树 (trie ) 实现 自动 补 全 ; 

口 缓存 ; 

口 使 用 装饰 器 functools .1ru_cache 实现 内 存 缓存 ; 
口 使 用 joblib .Memory 实现 磁盘 绥 存 ; 

口 使 用 推导 和 生成 器 实现 速度 快 且 占用 内 存 少 的 循环 。 








2.1 有 用 的 算法 和 数据 结构 
对 提升 性 能 而 言 ,改进 算法 特别 有 效 ， 因 为 这 通常 可 增强 应 用 程序 的 可 伸缩 性 ， 从 而 能 够 处 
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tt 


图 更 多 的 输入 。 


计算 复杂 性 是 一 个 描述 执行 任务 所 需 资 源 的 指标 , 可 根据 它 对 算法 进行 分 类 。 这 样 的 分 类 是 
使 用 大 O 表示 法 来 表示 的 。 所 谓 大 O 表示 法 ， 指 的 是 为 完成 任务 需要 执行 的 操作 数 的 上 限 ， 这 
通常 取决 于 输入 的 规模 。 


例如 ， 要 将 列表 的 每 个 元 素 都 加 1， 可 像 下 面 这 样 使 用 一 个 for 循环 来 实现 : 









































input = list (range(10)) 
for i, _ in enumerate (input): 
input[i] += 1 


如 果 操 作 不 依赖 于 输入 的 规模 ( 如 访问 列表 的 第 一 个 元 素 )， 相 应 算法 所 需 的 时 间 就 被 认为 
是 固定 的 , 用 0(1) 表 示 。 这 意味 着 不 管 有 多 少数 据 ， 运 行 算法 所 需 的 时 间 都 相同 。 


在 上 述 简单 的 算法 中 ,操作 input [i] += 1 将 重复 10 次 ， 这 与 输入 的 规模 相同 。 如 果 将 
输入 的 规模 翻 倍 ， 操 作 数 将 成 比例 地 增加 。 由 于 操作 数 与 输入 规模 成 正比 ,这 种 算法 所 需 的 时 间 
为 OOV)， 其 中 V 为 输入 的 规模 。 

在 有 些 情况 下 ,运行 时 间 可 能 取决 于 输入 的 结构 ， 如 集合 是 否 是 有 序 的 ， 以 及 是 否 包 含 很 多 
重复 的 元 素 。 在 这 些 情况 下 , 算法 的 最 佳 、 平 均 和 最 糟 运行 时 间 可 能 不 同 。 除 非特 别 指出 了 ， 否 
则 本 章 所 说 的 运行 时 间 都 是 指 平均 运行 时 间 。 

在 本 节 中 ， 我 们 将 研究 主要 算法 的 运行 时 间 以 及 Python 标准 库 实现 的 主要 数据 结构 ， 并 将 
了 解 到 缩短 运行 时 间 好 处 多 多 ， 让 我 们 能 够 优雅 地 解决 规模 庞大 的 问题 。 

本 章 用 来 运行 基准 测试 的 代码 可 在 笔记 本 ( notebook ) Algorithms .ipynb 中 找到 , 你 可 使 
用 Jupyter 来 打开 它 。 













































































2.1.1 列表 和 双 端 队列 


Python 列表 是 有 序 的 元 素 集合 ， 在 Python 中 是 使 用 大 小 可 调整 的 数组 实现 的 。 数 组 是 一 种 
基本 数据 结构 ， 由 一 系列 连续 的 内 存单 元 组 成 ， 其 中 每 个 内 存单 元 都 包含 指向 一 个 Python 对 象 
的 引用 。 


在 访问 、 修 改 和 附加 元 素 方面 ,， 列表 表现 得 非常 出 色 。 要 访问 或 修改 元 素 , 需要 从 底层 数组 
的 相应 位 置 获取 对 象 引 用 , 因此 其 复杂 度 为 0(1)。 附 加 元 素 的 速度 也 非常 快 。 当 你 创建 一 个 空 列 
表 时 ,将 分 配 一 个 长 度 固定 的 数组 ; 而 当 你 插入 元 素 时 ,数组 中 的 位 置 将 逐渐 被 填 满 。 当 所 有 位 
置 都 被 占据 后 , 列表 需要 增 大 其 底层 数组 的 长 度 , 进而 触发 内 存 重新 分 配 , 这 需要 的 时 间 为 O(N)。 
尽管 如 此 ， 内 存 分 配 操作 并 不 频繁 ， 因 此 附加 操作 的 时 间 复 杂 度 接近 于 0(1)。 


在 列表 开头 《或 中 间 ) 添加 或 删除 元 素 的 操作 可 能 在 效率 方面 存在 问题 。 在 列表 开头 插入 或 
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删除 元 素 时 ， 后 续 所 有 元 素 都 需要 移动 一 个 位 置 ， 因 此 需要 的 时 间 为 O(N)。 


下 表 列 出 了 对 包含 不 同 数量 的 元 素 的 列表 执行 各 种 操作 所 需 的 时 间 。 从 中 可 知 , 在 列表 开头 
和 末尾 插入 和 删除 元 素 时 ， 人 性 能 方面 的 差别 非常 大 。 


















































代 码 N=10 000 (hs) N=20 000 (hs) N=30 000 (hs) 时 间 
1ist.pop() 0.50 0.59 0.58 O(1) 
list.pop(0) 4.20 8.36 12.09 O(N) 
list.append(1) 0.43 0.45 0.46 O(1) 
list.insert (0, 1) 6.20 11.97 17.41 O(N) 

在 有 些 情 况 下 ， 必 须 高 效 地 执行 在 集合 开头 和 末尾 插入 或 删除 元 素 的 操作 ，Python 


通 
collections.deque 类 提供 了 一 种 具有 这 种 特征 的 数据 结构 。deque 指 的 是 双 端 队列 , 因为 
种 数据 结构 被 设计 成 能 够 在 集合 两 端 高 效 地 添加 和 删除 元 素 ， 就 像 在 队列 中 执行 这 些 操 作 一 样 
在 Python 中 ， 双 端 队列 是 以 双向 链表 的 方式 实现 的 。 
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除 pop 和 appeng 外 ， 双 端 队列 还 暴露 了 方法 popleft 和 appendleft， 它们 的 运行 时 间 
都 是 O(1)。 

代 码 N=10 000 (hs) N=20 000 (hs) N=30 000 (hs) 时 间 
deque.pop() 0.41 0.47 0.51 oO) 
deque.popleft () 0.39 0.51 0.47 OU) 
deque.append (1) 0.42 0.48 0.50 0(1) 
deque.appendleft (1) 0.38 0.47 0.51 O() 

虽然 双 端 队列 有 这 些 优点 , 但 在 大 多 数 情 况 下 ,都 不 应 用 它 来 替换 常规 列表 。 方 法 appendleft 
和 popleft 的 高 效 是 要 付出 代价 的 : 访问 双 端 队列 中 间 的 元 素 所 需 的 时 间 为 OWV), 如 下 表 所 示 。 

代 码 N=10 000 (hs) N=20 000 (hs) N=30 000 (hs) 时 间 
aeaue[0] 0.37 0.41 0.45 O01) 
deque[N - 1] 0.37 0.42 0.43 O01) 
aeaue[int(N / 2)] 1.14 1.71 2.48 OO) 
































在 列表 中 查找 元 素 通常 是 一 种 O(N) 操 作 ， 这 种 操作 是 使 用 方法 1ist .index 来 完成 的 。 为 
提高 列表 查找 速度 , 一 种 简单 的 办 法 是 确保 底层 数组 是 有 序 的 ,并 使 用 模块 bisect 来 执行 二 分 
查找 。 


模块 bisect 让 你 能 够 在 有 序数 组 中 进行 快速 查找 。 对 于 有 序列 表 ， 可 使 用 函数 bisect. 
bisect 来 确定 将 元 素 插 入 到 什么 位 置 ， 同 时 可 确保 插入 后 列表 依然 是 有 序 的。 从 下 面 的 示例 可 
知 ， 要 在 列表 中 插入 元 素 3， 并 确保 搬入 后 列表 依然 是 有 序 的 ， 应 将 元 素 3 放 在 第 三 个 位 置 (对 
应 的 索引 为 2 )。 
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insert bisect 

colleetian sl 2 dr Sy 6) 
bisect.bisect (collection, 3) 
# 结果 : 2 


这 个 函数 使 用 二 分 查找 算法 ， 运 行 时 间 为 O(log(N))。 这 样 的 运行 速度 非常 快 ， 大 致意 味 着 
输入 规模 每 翻 一 倍 ， 运 行 时 间 都 只 会 增加 固定 的 量 。 这 意味 着 如 果 程 序 在 输入 规模 为 1000 时 执 ed 
行 时 间 为 1 秒 ， 则 处 理 规 模 为 2000 的 输入 需要 2 秒 ， 处 理 规模 为 4000 的 输入 需要 3 秒 ， 以 此 类 
推 。 如 果 有 100 秒 时 间 可 用 ， 从 理论 上 说 就 可 处 理 规 模 为 10” 的 输入 ,这 比 你 身体 包含 的 原子 数 
还 多 ! 


如 果 要 搬入 的 值 已 包含 在 列表 中 ,因数 bisect .bisect 将 返回 这 个 既 有 值 后 面 的 位 置 。 
此 ， 我 们 可 使 用 变种 pisect .bisect_left， 它 以 下 面 这 样 的 方式 返回 正确 的 索引 。 

















def index_ bisect(a, x): 
' 找 到 第 一 个 与 xX 相同 的 值 ' 
i = bisect.bisect_left (a, x) 
en(a) and oll] SS 
return i 
raise ValueError 


从 下 表 可 知 , 使 用 bisect 的 解决 方案 的 运行 时 间 几 乎 不 受 输入 规模 的 影响 , 适合 用 来 搜索 
非常 大 的 集合 。 


























代 码 N=10 000 (hs) N=20 000 (hs) N=30 000 (hs) 时 间 
list.index(a) 87.55 171.06 263.17 O(N) 
index_bisect (list, a) 3.16 3.20 4.71 O(log(N)) 

2.1.2 字典 


字典 功能 丰富 ， 在 Python 语言 中 被 广泛 使 用 。 字 上 典 是 以 散 列 映射 的 方式 实现 的 ， 在 插入 、 
删除 和 访问 元 素 方 面 的 表现 都 非常 杰出 一 一 所 有 这 些 操作 的 时 间 复 杂 度 都 是 0(1)。 


在 Python 3.5 及 以 前 的 版 本 中 ， 字 段 是 无 序 集合 ， 但 从 Python 3.6 起， 字典 能 够 
保留 元 素 的 插入 顺序 。 


散 列 映射 是 一 种 将 键 关联 到 值 的 数据 结构 , 其 背后 的 原理 是 给 每 个 键 都 指定 索引 ， 以 便 将 关 
联 的 值 存储 在 数组 中 。 索 引 可 使 用 散 列 函数 计算 得 到 ; Python 为 多 种 数据 类 型 实现 了 散 列 函数 ， 
例如 ， 获 取 散 列 码 的 通用 函数 是 hash。 下 面 的 示例 演示 了 如 何在 给 定 字符 串 "hello" 的 情况 下 
获取 散 列 码 。 


hash("hello") 
# 结果 : -1182655621190490452 























# 要 将 得 到 的 数字 限制 在 特定 范围 内 
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# 可 使 用 求 模 运算 符 〈g) 

hash("hello") % 10 

# 结果 : 8 

散 列 映射 实现 起 来 可 能 比较 糠 手 ， 因 为 它们 需要 处 理 冲 突 ， 即 两 个 不 同 对 象 的 散 列 码 相同 。 
然而 ， 所 有 的 复杂 性 都 被 隐藏 在 实现 后 面 ， 且 在 大 多 数 情况 下 ， 默 认 的 冲突 解决 方案 就 挺 管用 。 


不 管 字典 的 规模 如 何 , 访问、 搬入 和 删除 元 素 的 运行 时 间 都 为 0(1)。 然而, 别 忘 了 还 需 计 算 
散 列 函 数 ， 而 就 字符 串 而 言 ,这 种 计算 所 需 的 时 间 与 字符 串 长 度 成 正比 。 考 虑 到 字符 串 键 通常 较 
短 ， 因 此 在 实践 中 这 不 是 问题 。 











/ 


























使 用 字典 可 高 效 地 计算 列表 中 独特 元 素 的 个 数 。 在 下 面 的 示例 中 , 我 们 定义 了 函数 counter qict， 
它 接 受 一 个 列表 并 返回 一 个 字典 ， 其 中 包含 列表 中 每 个 独特 值 的 出 现 次 数 。 


def counter_dict (items): 
counter = {} 
for item in items: 
if item not in counter: 
counter[item] = 0 
else: 
counter[item] += 1 
return counter 


collections.defaultdict 生成 一 个 字典 ， 并 给 每 个 新 键 自 动 指定 一 个 默认 值 ， 通 过 使 
用 它 可 在 一 定 程度 上 简化 上 述 代码 。 在 下 面 的 代码 中 , 调用 aefaultaict (int) 生 成 一 个 字典 ， 
其 中 每 个 新 键 都 被 自动 指定 为 零 值 ， 因 此 可 使 用 它 来 简化 计数 工作 。 



































from collections import defaultdict 
def counter_ defaultdict (items): 
counter = defaultdict (int) 
for item in items: 
counter [item] += 1 
return counter 


模块 collections 还 包含 一 个 名 为 Counter 的 类 ， 可 用 来 实现 同样 的 目的 ， 但 只 需 一 行 
代码 。 





from collections import Counter 
counter = Counter (items) 


在 速度 方面 ， 这 些 计数 方式 的 时 间 复 杂 度 都 相同 ， 但 使 用 counter 实现 的 效率 最 高 ， 如 下 
表 所 示 。 

















代 码 N=1000 (hs) N=2000 (hs) N=3000 (hs) 时 间 
Counter (items) 51.48 96.63 140.26 O(N) 
counter dict (items) 111.96 197.13 282.79 O(N) 
counter_defaultdict (items) 120.90 238.27 359.60 O(N) 














2.1 有 用 的 算法 和 数据 结构 27 





使 用 散 列 映射 在 内 存 中 创建 查找 索引 


使 用 字典 可 在 文档 列表 中 快速 查找 特定 的 单词 ， 就 像 搜 索引 擎 一 样 。 在 这 一 小 节 中 ,你 将 学 
习 如 何 创建 基于 列表 字典 的 反 向 索引 。 假 设 有 一 个 包含 4 个 文档 的 集合 : 





docs = ["the cat is under the table", 
"the dog is under the table", 
"cats and dogs smell roses", 
"Carla eats an apple"] 


要 获取 与 查询 匹配 的 所 有 文档 , 一 种 简单 的 方式 是 扫描 每 个 文档 , 并 检查 其 中 是 否 包含 指定 
的 单词 。 例 如 ， 要 查找 包含 单词 table 的 文档 ， 可 使 用 如 下 过 滤 操 作 。 


























matches = [doc for doc in docs if "table" in doc] 


这 种 方法 很 简单 ， 对 一 次 性 查询 来 说 也 挺 管用 , 但 如 果 需 要 频繁 地 查询 这 个 集合 ,对 查询 时 
间 进 行 优 化 将 大 有 神 益 。 由 于 线性 扫描 的 总 查询 开销 为 OCOV)， 因 此 可 以 想见 ， 提 高 可 伸缩 性 后 ， 
将 能 够 处 理 大 得 多 的 文档 集合 。 

一 种 更 佳 的 策略 是 花 些 时 间 对 文档 进行 预 处 理 , 以 便 查 询 时 更 容易 找到 它们 。 我 们 可 创建 一 
个 名 为 反 向 索引 的 结构 , 它 将 集合 中 的 每 个 单词 都 关联 到 包含 该 单词 的 文档 列表 。 在 前 面 的 示例 
中 ， 单 词 table 将 关联 到 文档 the cat is under the table 和 the dog is under the table， 而 这 两 个 文档 的 
索引 分 别 为 0 和 1。 


为 实现 这 种 映射 ， 可 遍历 文档 集合 , 并 将 包含 指定 单词 的 文档 的 索引 存储 在 一 个 字典 中 。 这 
种 实现 与 困 数 counter_dict 类 似 ， 但 不 累积 计数 器 ， 而 是 不 断 增 大 列表 ， 其 中 包含 与 指定 单 
词 匹 配 的 文档 。 

# 创建 索引 


index-={} 
for i, doc in enumerate(docs): 
# 遍历 文档 中 的 每 个 单词 
for word in doc.split(): 
# 创建 一 个 列表 ， 其 中 包含 所 有 包含 指定 单词 的 文档 的 索引 
if word not in index: 
index[word] = [i] 
else: 
index[word] .append (i) 


创建 索引 后 ， 查 询 时 只 需 执 行 简单 的 字典 查找 。 例 如 ， 要 返回 所 有 包含 单词 table 的 文档 ， 
只 需 查 询 索引 ， 并 获取 相应 的 文档 。 


results = index["table"] 
result_documents = [docs[i] for i in results] 


有 了 索引 后 , 查询 集合 时 只 需 执 行 一 次 字典 访问 操作 , 因此 查询 的 时 间 复 杂 度 为 0(1)! 多 亏 
了 反 向 索引 ， 现 在 无 论 查 询 多 少 文档 〈 只 要 它们 都 能 够 加 入 到 内 存 中 )， 所 需 的 时 间 都 一 样 。 毋 
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庸 置疑 ,索引 技术 不 仅 被 搜索 引擎 广泛 用 来 快速 检索 数据 , 还 被 数据 库 以 及 其 他 所 有 需要 快速 搜 
索 的 系统 所 使 用 。 


请 注意 ,创建 反 向 索引 是 一 种 代价 高 昂 的 操作 ,必须 考虑 到 每 个 可 能 的 查询 。 这 是 一 个 严重 
的 缺点 ， 但 好 处 非常 大 ， 值 得 为 此 付出 灵活 性 降低 的 代价 。 

















2.1.3 集 


集 是 一 个 无 序 的 元 素 集合 , 且 其 中 的 每 个 元 素 都 必须 是 独一无二 的 。 集 的 主要 用 途 是 成 员 资 
格 测试 (检查 集合 中 是 否 包含 特定 的 元 素 )， 集 操作 包含 并 集 、 差 集 和 交集 。 


在 Python 中 ， 集 与 字典 一 样 ， 也 是 使 用 基于 散 列 的 算法 实现 的 ， 因 此 其 加 法 、 删 除 和 成 员 
资格 测试 等 操作 的 时 间 复 杂 度 都 为 0(1)， 即 不 受 集合 规模 的 影响 。 


集中 的 元 素 都 是 独一无二 的 , 因此 其 一 种 显而易见 的 用 途 是 用 于 删除 集合 中 重复 的 元 素 , 为 
此 只 需 将 集合 传递 给 构造 函数 set 即 可 ， 如 下 所 示 。 

# 创建 一 个 包含 重复 元 素 的 列表 

x = list(range(1000)) + list (range(500)) 

# 集 x_unique 将 只 包含 x 中 不 同 的 元 素 

x_unique = set (x) 
删除 重复 元 素 的 时 间 复 杂 度 为 O(N)， 因 为 这 种 操作 要 求 读 取 输 入 ， 并 将 每 个 不 同 的 元 素 加 
人 到 集中 。 


集 支 持 大 量 的 操作 ， 如 并 集 、 交 集 和 差 集 。 并 集 包 含 两 个 集中 所 有 的 元 素 ; 交集 包含 两 个 集 
中 都 有 的 元 素 ; 而 差 集 包 含 出 现在 第 一 个 集中 但 没有 出 现在 第 二 个 集中 的 元 素 。 这些 操 作 的 时 间 
复杂 度 如 下 表 所 示 。 请 注意 ， 由 于 这 些 操作 涉及 两 个 规模 不 同 的 集 ， 因 此 我 们 用 S 表 示 第 一 个 集 
(s ) 的 规模 ， 并 用 7 表示 第 二 个 集 (t ) 的 规模 。 



























































































































































代 码 时 间 
s.union(t) O(S+D) 
s.intersection(t) O(min(S, 7)) 
s.difference(t) O(S) 








集 操作 的 一 种 用 途 是 布尔 查询 。 在 前 面 的 反 向 索引 示例 中 , 你 可 能 想 支 持 包 含 多 个 单词 的 查 
询 。 例 如 ,你 可 能 想 查 找 所 有 包含 单词 cat 和 table 的 文档 。 要 高 效 地 执行 这 种 查询 ， 可 计算 包含 
单词 cat 的 文档 集 和 包含 单词 table 的 文档 集 的 交集 。 


为 高 效 地 支持 这 种 操作 ， 可 修改 前 面 创建 索引 的 代码 , 将 每 个 单词 都 关联 到 一 个 文档 集 ( 而 


不 是 文档 列表 )。 这 样 修改 后 ， 只 需 执行 合适 的 集 操作 就 能 完成 更 复杂 的 查询 。 在 下 面 的 代码 中 ， 
反 向 索引 是 基于 集 的 ， 而 查询 是 使 用 集 操作 来 完成 的 。 
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# 使 用 集 来 创建 索引 
index = {} 
for i, doc in enumerate(docs): 
# 遍历 文档 中 的 每 个 单词 
for word in doc.split(): 
# 创建 一 个 集 ， 其 中 包含 出 现 了 指定 单词 的 所 有 文档 的 索引 
if word not in index: 
index[word] = {i} 
else: 
index[word] .add (i) 


# 查询 包含 单词 cat 和 table 的 文档 


2.1.4 堆 


堆 是 一 种 设计 用 于 快速 查找 并 提取 集合 中 最 大 值 或 最 小 值 的 数据 结构 , 其 典型 用 途 是 按 优先 
级 处 理 一 系列 任务 。 


从 理论 上 说 , 可 结合 使 用 有 序列 表 和 模块 bisect 中 的 工具 来 替代 堆 , 这 样 提 取 最 大 值 的 时 
间 复 杂 度 将 为 0(1) (使 用 1ist .pop )， 但 搬入 操作 的 时 间 复 杂 度 仍 为 OOV〈 别 忘 了 ， 虽 然 找 出 
插入 位 置 的 时 间 复 杂 度 为 O(log(N) )， 但 在 列表 中 间 搬 人 元 素 的 时 间 复 杂 度 仍 为 O(N) )。 堆 是 一 
种 效率 更 高 的 数据 结构 ， 其 元 素 搬 和 人 操作 和 最 大 值 提取 操作 的 时 间 复 杂 度 都 为 O(log(N))。 


在 Python 中 ， 堆 是 通过 对 列表 执行 模块 neapq 中 的 函数 来 创建 的 。 例 如 ， 如 果 有 一 个 包含 
10 个 元 素 的 列表 ， 可 使 用 函数 heapd.heapify 将 其 转换 为 堆 。 

































































Import heapd 


Golleetion SI [10, .3 37 4; 556 
heapgq.heapify (collection) 


要 对 扒 执 行 搬入 和 提取 操作 ， 可 使 用 函数 heapq.heappush 和 heapq.heappop。 了 函数 
heapq.heappop 提取 集合 中 的 最 小 值 ， 时 间 复 杂 度 为 O(log(N))， 其 用 法 如 下 。 


heapd.heappop (collection) 
# 返回 : 3 


同 理 ， 要 压 入 整数 1， 可 使 用 函数 heapa.heappush， 如 下 所 示 。 























heapd.heappush(collection，1) 


另 一 种 方法 是 使 用 aueue.Priorityoueue 类 , 它 还 是 线程 和 进程 安全 的 .要 在 PriorityQueue 
类 中 填充 元 素 , 可 使 用 方法 PriorityQueue.put; 要 提取 最 小 值 , 可 使 用 方法 Priorityoueue .get。 














from queue import PriorityQueue 


queue = PriorityQueue() 
for element in collection: 
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queue.put (element ) 


queue .get () 

# 返回 : 3 

要 提取 最 大 的 元 素 , 可 采用 一 种 简单 的 诀窍 一 一 将 每 个 元 素 都 乘 以 -1, 这 将 反 转 元 素 的 排列 
顺序 。 另 外 ， 如 果 要 将 每 个 数字 ( 可 能 表示 优先 级 ) 关联 到 一 个 对 象 ( 如 要 执行 的 任务 )， 可 插 
人 形 如 (number，object) 的 元 组 ， 这 是 因为 元 组 的 比较 运算 符 将 根据 其 第 一 个 元 素 进 行 排序 ， 
如 下 面 的 示例 所 示 。 


























Gueue = PriorityQueue() 
queue.put ((3, "priority 3")) 
queue.put ((2, "priority 2")) 
queue.put ((1, "priority 1")) 
Gueue .get () 

# 撤回 和 ("priority 再 ) 


2.1.5 ”字典 树 


字典 树 也 被 称 为 前 缀 树 ， 这 种 数据 结构 可 能 不 那么 流行 , 但 很 有 用 。 在 列表 中 查找 与 前 组 匹 
配 的 字符 串 方 面 , 字典 树 的 速度 极 快 ,因此 非常 适合 用 来 实现 输入 时 查找 和 自动 补 全 功能 。 实 现 
自动 补 全 功能 时 ， 候 选 内 容 列 表 非 常 大 ， 因 此 要 求 响应 时 间 很 短 。 


遗憾 的 是 ，Python 标准 库 没 有 提供 字典 树 实 现 ， 但 通过 PyPI 可 找到 很 多 高 效 的 实现 。 本 闻 
将 使 用 的 实现 是 patricia-trie， 它 只 包含 一 个 文件 ， 而 且 完 全 是 使 用 Python 编写 的 。 例 如 ， 
我 们 将 使 用 patricia-trie 在 一 系列 字符 串 中 找 出 最 长 前 级 ( 就 像 自动 补 全 那样 )。 


例如 ,我 们 可 演示 在 搜索 字符 串 列表 方面 , 字典 树 的 搜索 速度 有 多 快 。 为 生成 大 量 各 不 相同 
的 随机 字符 串 ， 我 们 可 定义 一 个 函数 一 一 random_string。 这 个 函数 返回 一 个 由 随机 大 写字 符 
组 成 的 字符 串 , 虽然 这 可 能 生成 重复 的 字符 串 , 但 只 要 让 字符 串 足 够 长 ， 就 可 将 这 种 可 能 性 降低 
到 可 忽略 不 计 的 程度 。 函 数 random_string 的 实现 如 下 : 


from random import choice 
from string import ascii uppercase 
























































def random string(length): 
"" "生成 一 个 由 Lengtpnh 个 大 写 ASCII 字符 组 成 的 随机 字符 串 """ 
return ''.join(choice(ascii uppercase) for i in range (length)) 
我 们 可 创建 一 个 随机 字符 串 列 表 ， 使 用 函数 str .startswith 在 其 中 搜索 前 级 (这 里 为 字 
捉 AA )， 并 看 看 这 种 操作 的 速度 有 多 快 。 
strings 
matches 








~ 
We 
HH 


站 


[zandqom_string(32) for i in range(10000)] 
[s for s in strings if s.startswith('AA')] 
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列表 推导 和 stz.startwith 都 是 经 过 极度 优化 的 操作 ,在 这 个 很 小 的 数据 集中 搜索 时 ,只 
需要 大 约 1 毫秒 。 


stimeit [s for s in strings if s.startswith('AA')] 


1000 loops, best of 3: 1.76 ms per loop 


下 面 尝试 使 用 前 缀 字典 来 执行 这 种 操作 。 在 这 个 示例 中 , 我们 都 将 使 用 patricia-trie 库 ， 
你 可 使 用 pip 来 安装 它 。patricia.trie 类 实现 了 字典 树 数 据 结构 的 一 个 变种 ,并 提供 了 类 似 
于 字典 的 接口 。 为 初始 化 字典 树 ， 可 先 根据 字符 串 列表 创建 一 个 字典 ， 如 下 所 示 。 




















from patricia import trie 

SEtALNnge .diet n=. {S00 OR LN etringey 

# 一 个 所 有 值 都 为 0 的 字典 

strings_trie = trie(**strings_dict) 

要 查询 与 前 缀 匹配 的 内 容 ， 可 使 用 方法 trie.iter， 它 返回 一 个 迭代 器 ， 该 迭代 器 可 用 于 
迭代 匹配 的 字符 串 。 

matches = list(strings_trie.iter('AA')) 


知道 如 何 初 始 化 和 查询 字典 树 后 ， 就 可 计算 操作 的 时 间 了 。 


stimeit 11st(Strings_trie.iter('AA')) 
10000 loops, best of 3: 60.1 hs per loop 


如 果 你 仔细 查看 ， 将 发 现在 前 述 输入 规模 下 ， 操 作 的 执行 时 间 为 60.1 微 秒 ， 比 线性 搜索 的 
速度 快 了 大 约 30 倍 (1.76 毫秒 -1760 微 秒 )! 速度 之 所 以 有 如 此 惊人 的 提高 ， 是 因为 字典 树 前 级 
搜索 的 计算 复杂 度 更 低 , 字 典 树 查询 的 时 间 复 杂 度 为 0(5), 其 中 5 为 集合 中 最 长 的 字符 串 的 长 度 ， 
而 简单 线性 扫描 的 时 间 复 杂 度 为 O(N)， 其 中 N 为 集合 的 长 度 。 


请 注意 , 如 果 要 返回 所 有 与 前 缀 匹配 的 字符 串 , 运行 时 间 将 与 跟前 绥 匹 配 的 字符 串 数量 成 正 
比 。 因 此 ， 设 计 基准 测试 程序 时 ， 必 须 特 别 小 心 ， 确 保 每 次 返回 的 结果 数 都 相同 。 

下 表 比 较 了 字典 树 和 线性 扫描 的 可 伸缩 性 , 其 中 涉及 的 数据 集 的 规模 各 不 相同 , 但 返回 的 前 
缀 匹配 结果 都 是 10 个 。 






































算 法 N=10 000 (hs) N=20 000 (hs) N=30 000 (hs) 时 间 
字典 树 17.12 i 17.47 O(S) 
线性 扫描 1978.44 4075.72 6398.06 O(N) 














有 趣 的 是 ，patricia-trie 的 实现 实际 上 只 包含 一 个 Python 文件 ， 这 清楚 地 表明 , 巧妙 的 
算法 既 简 单 又 强大 。 要 获得 其 他 功能 并 进一步 提高 性 能 , 可 使 用 采用 C 语言 编写 并 经 过 优化 的 字 
典 树 库 ， 如 datrie 和 marisa-trie。 
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2.2 缓存 和 memoization 


缓存 是 一 种 出 色 的 技术 , 用 于 改善 各 种 应 用 程序 的 性 能 , 其 背后 的 理念 是 将 好 不 容易 得 到 的 
结果 存储 在 临时 区 域 。 这 种 区 域 被 称 为 缓存 区 ， 可 以 是 内 存 、 磁 盘 或 远程 位 置 。 


Web 应 用 大 量 地 使 用 了 缓存 技术 。 在 Web 应 用 中 ， 常 常会 发 生 多 位 用 户 同时 请 求 同 一 个 页 
面 的 情况 。 在 这 种 情况 下 ，Web 应 用 可 只 生成 网 页 一 次 ,并 向 用 户 提供 已 泻 染 好 的 页 面 ， 而 不 是 
在 每 位 用 户 请 求 时 都 重复 生成 页 面 。 理 想 情 况 下 , 缓存 技术 还 需 使 用 有 效 的 验证 机 制 ， 以 便 需 要 
更 新 网 页 时 重新 生成 ， 再 将 其 提供 给 用 户 。 智 能 缓存 技术 让 Web 应 用 能 够 处 理 更 多 的 用 户 ， 同 
时 消耗 更 少 的 资源 。 你 还 可 预先 进行 缓存 , 例如 , 在 用 户 在 线 观 看 视频 时 , 缓存 视频 的 后 续 部 分 。 


对 于 有 些 算 法 ,还 可 使 用 缓存 技术 来 改善 其 性 能 ,一 个 典型 示例 是 计算 斐 波 纳 契 数列 。 由 于 
计算 斐 波 纳 契 数列 中 的 下 一 个 数字 时 ， 需 要 用 到 前 一 个 数字 , 因此 可 存储 并 重用 以 前 的 结果 ， 从 
而 极 大 地 缩短 运行 时 间 。 在 应 用 程序 中 存储 并 重用 以 前 的 函数 调用 结果 通常 被 称 为 memoization ， 
这 也 是 一 种 缓存 技术 。 还 有 其 他 几 种 算法 可 利用 memoization 来 极 大 地 改善 性 能 ， 这 种 编程 方法 
通常 被 称 为 动态 规划 。 


然而 ,缓存 带 来 的 好 处 并 非 免费 的 。 实 际 上 , 通常 以 牺牲 一 些 空 间 为 代价 来 换取 应 用 程序 的 
速度 。 另 外 ， 如 果 缓 存 区 位 于 网 上 ， 还 需要 付出 传输 代价 和 花费 通信 时 间 。 你 应 该 进行 评估 ， 确 
定 在 什么 情况 下 使 用 缓存 可 提供 便利 ， 以 及 你 愿意 以 多 少 空间 来 换取 速度 的 提升 。 


鉴于 缓存 技术 很 有 用 ，Python 标准 库 包 含 了 模块 functools， 让 你 能 够 直接 使 用 基于 内 存 
的 缓存 。 通 过 使 用 装饰 器 functools .1lru_cache, 你 可 轻松 地 缓存 函数 的 结果 。 在 下 面 的 示例 
中 ,我 们 创建 了 一 个 名 为 sum2 的 函数 ， 它 打印 一 条 语句 并 返回 两 个 数字 的 和 。 我 们 运行 了 这 个 
函数 两 次 。 从 输出 可 知 ， 第 一 次 执行 函数 sum2 时 生成 了 字符 串 "calculating ..."， 而 第 二 
次 直接 返回 结果 ， 没 有 运行 该 函数 。 


from functools import lru_cache 


















































































































































@lru_cache() 

def sum2 (a，Db) : 
print ("Calculating {} + {}".format (a, b)) 
return a + b 


print (sum2 (1, 2)) 

# 输出 : 

# Calculating 1 + 2 
# 3 


print (sum2(1, 2)) 


装饰 器 1ru_cache 还 提供 了 其 他 基本 功能 。 要 限制 缓存 区 的 大 小 ， 可 使 用 参数 max_size 
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定 要 保留 的 元 素 个 数 ; 如 果 和 希望 缓存 区 大 小 不 受 限制 ， 可 将 这 个 参数 设置 为 None。 下 面 是 一 
个 使 用 参数 max_size 的 示例 。 








@lru_cache (max_size=16) 
def sum2(a, b): 


这 样 ， 当 我 们 使 用 不 同 的 参数 执行 函数 sum2 时 , 缓存 区 将 逐渐 达到 最 大 长 度 16, 然后 再 调 
用 这 个 函数 时 ， 绥 存 区 中 原来 的 值 将 被 新 计算 得 到 的 值 覆 盖 。 前 缀 1ru 就 源 于 这 种 策略 ， 它 表 
示 最 近 用 得 最 少 的 ( least recently used )。 


装饰 器 1ru_cache 还 给 被 装饰 的 函数 添加 了 额外 的 功能 。 例 如 ， 可 使 用 方法 cache_info 
来 查看 缓存 的 性 能 ， 还 可 使 用 方法 cache_clear 来 清除 缓存 ， 如 下 所 示 。 














Sum2 .cache_info() 
# 输出 : CacheInfo (hits=0, misses=1, maxsize=128, currsize=1) 
sum2 .cache_clear() 


作为 示例 , 我 们 来 看 一 个 可 受益 于 缓存 技术 的 问题 一 一 计算 斐 波 纳 契 数列 。 我 们 可 这 样 定 义 
本 数 fibonacci 并 测量 其 执行 时 间 : 
def fibonacci (n): 
i 
return 1 


else: 
return fibonacci(n - 1) + fibonacci(n - 2) 


# 未 使 用 memoization 的 版 本 
Stimeit fibonacci (20) 
100 loops, best of 3: 5.57 ms per loop 


执行 时 间 为 5.57 毫秒 ， 这 算 很 长 了 。 这 样 编写 的 函数 的 可 伸缩 性 很 糟 : 由 于 没有 重用 之 前 
计算 的 斐 波 纳 契 数列 ， 导 致 这 种 算法 的 时 间 复 杂 度 大 约 为 O02")。 


通过 使 用 缓存 技术 来 存储 并 重用 之 前 计算 得 到 的 斐 波 纳 契 数 , 可 改善 这 种 算法 的 性 能 。 要 实 
现 缓存 版 本 ， 只 需 对 函数 fibonacci 应 用 装饰 器 1ru_cache 即 可 。 另 外 ， 为 设计 合适 的 基准 
测试 程序 ， 需 确保 每 次 运行 时 都 实例 化 新 缓存 ， 为 此 可 使 用 函数 timeit .repeat， 如 下 面 的 示 
例 所 示 。 

import timeit 

setup_code = '' 

from functools import lru_ cache 


from _ main _ import fibonacci 
fibonacci_ memoized = lru_cache (maxsize=None) (fibonacci) 
jen 





























results = timeit.repeat ('fibonacci memoized(20)', 
setup=setup_code, 
repeat=1000, 
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number=1) 
print ("Fibonacci took {:.2f} us".format (min(results))) 
# 输出 : Fibonacci took 0.01 us 


虽然 我 们 只 是 通过 添加 一 个 简单 的 装饰 顺 来 修改 算法 , 但 现在 运行 时 间 远 短 于 1 毫秒 。 原因 
在 于 由 于 使 用 了 缓存 技术 ， 现 在 算法 的 时 间 复 杂 度 是 线性 的 ， 而 不 是 指数 的 。 


在 应 用 程序 中 , 可 使 用 装饰 器 1ru_cache 来 实现 基于 内 存 的 简单 缓存 。 在 更 复杂 的 情况 下 ， 
可 使 用 第 三 方 模块 来 提供 更 强大 的 实现 和 基于 磁盘 的 缓存 。 


joblib 








joblib 是 一 个 简单 的 库 ， 提 供 了 基于 磁盘 的 简单 缓存 ， 还 有 其 他 功能 。 这 个 包 的 用 法 与 
lru_cache 类 似 ， 但 结果 存储 在 磁盘 中 ， 不 会 随 应 用 程序 的 终止 而 消失 。 








(大 模块 joblip 可 在 PyPI 中 找到 ， 你 可 使 用 命令 bip install joblip 来 安装 它 。 


模块 joblib 提供 了 Memory 类 ， 你 可 使 用 装饰 需 Memory . cache 来 存储 函数 的 结果 。 


from joblib import Memory 
memory = Memory (cachedir='/path/to/cachedir') 


@memory .Cache 
def sum2(a, b): 
return a + b 
这 个 装饰 器 的 作用 与 1ru_cache 类 似 , 但 结果 将 存储 在 磁盘 中 一 一 初始 化 Memory 时 通过 
参数 cachedir 指定 的 目录 中 。 男 外 ,缓存 的 结果 不 会 随 应 用 程序 的 终止 而 消失 ! 


使 用 方法 Memory .cache 还 可 指定 仅 在 特定 参数 发 生变 化 时 才 重 新 计算 ， 这 让 被 装饰 的 函 
数 具 备 清 除 和 分 析 组 存 的 基本 功能 。 

由 于 使 用 了 智能 散 列 算法 ，joblib 最 大 的 特色 在 于 ， 能 够 对 操作 NumPy 数组 的 函数 进行 
高 效 的 memoization， 这 在 科学 和 工程 应 用 程序 中 很 有 用 。 











2.3 ”推导 和 生成 器 


本 节 将 探索 一 些 使 用 推导 和 生成 器 改善 Python 循环 的 性 能 的 简单 策略 。 在 Python 中 ， 推 导 
和 生成 器 表达 式 是 经 过 极度 优化 的 操作 ， 非 常 适合 用 来 替代 显 式 的 for 循环 。 使 用 它们 的 另 一 
个 原因 是 代码 的 可 读 性 更 强 : 即便 速度 不 比 标准 循环 高 多 少 , 但 推导 和 生成 器 语法 更 紧凑 , 且 在 
大 多 数 情 况 下 更 直观 。 
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从 下 面 的 示例 可 知 ， 与 函数 sum 结合 使 用 时 ， 列 表 推导 和 生成 器 表达 式 的 速度 都 比 显 式 循 
环 要 快 。 


def loop(): 
res = [] 


for i in range(100000): 
res.append (i * 工 ) ed 
return suml(res) 
def comprehension(): 
return sum([i * i for i in range(100000)]) 








def generator(): 
return sum(i * i for i in range(100000)) 


stimeit loop() 

100 loops, best of 3: 16.1 ms Per loop 
$timeit comprehension() 

100 loops, best of 3: 10.1 ms per loop 
Stimeit generator() 

100 loops, best of 3: 12.4 ms per loop 


与 列表 一 样 , 使 用 字典 推导 来 生成 字典 时 , 效率 也 要 高 些 , 代码 也 更 紧凑 , 如 下 面 的 代码 所 示 。 








def loop(): 
res = {} 
for i in range(100000): 
守信 [证 ] “号 ” 定 


return, res 


def comprehension(): 

return {i: i for i in range(100000)} 
Stimeit loop() 
100 loops, best of 3: 13.2 ms per loop 
Stimeit comprehension() 
100 loops, best of 3: 12.8 ms per loop 


要 实现 高 效 的 循环 ( 尤其 是 在 内 存 使 用 方面 )， 可 结合 使 用 迭代 器 和 filter、map 等 限 数 。 
例如 ， 来 看 这 样 一 个 问题 ， 即 使 用 列表 推导 对 列表 执行 一 系列 操作 ， 再 提取 最 大 的 值 。 
def map_comprehension (numbers): 
a [n * 2 for n in numbers] 
b [n: ** 2 for nn in al 


Ga Tn 03 EOF mn 11 
return max(c) 


这 种 方法 存在 的 问题 是 , 对 于 每 个 列表 推导 都 将 分 配 一 个 新 列表 , 这 增加 了 内 存 使 用 量 。 我 
们 可 使 用 生成 器 ， 而 不 使 用 列表 推导 。 生 成 器 是 对 象 ， 对 其 进行 迭代 时 ,将 每 次 计算 一 个 值 并 返 
回 结果 。 


例如 ， 函 数 map 接受 两 个 参数 一 一 一 个 函数 和 一 个 迭代 器 ， 并 返回 一 个 生成 器， 该 生成 器 
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将 函数 应 用 于 集合 中 的 每 个 元 素 。 这 里 的 重点 在 于 , 这 种 操作 是 在 迭代 期 间 进行 的 ， 而 不 是 在 调 
用 函数 map 时 进行 的 ! 

我 们 可 使 用 map 来 重 写 前 面 的 函数 ， 这 将 创建 中 间 生 成 器 〈 而 不 是 列表 )， 从 而 动态 地 计算 
值 以 节省 内 存 。 


























def map_normal (numbers): 


a = map(lambda n: n * 2, numbers) 
Bb =. map(lanmbda Ts Tr ** 2 dH) 

名 Eae(Lanbaa rn Tt 0 23. "5B) 
return max(c) 





在 IPython 会 话 中 ,可 使 用 扩展 memory_profiler 来 剖析 这 两 种 解决 方案 的 内 存 使 用 情况 。 
这 个 扩展 提供 了 实用 工具 smemit ,可 像 stimeit 那 样 帮助 我 们 评估 Python 语句 的 内 存 使 用 情况 ， 
如 下 所 示 。 





$load_ext memory_profiler 

numbers = range(1000000) 

smemit map_comprehension (numbers) 

peak memory: 166.33 MiB, increment: 102.54 MiB 
smemit map_normal (numbers) 

peak memory: 71.04 MiB, increment: 0.00 MiB 


如 你 所 见 ， 第 一 个 版 本 占用 的 内 存 为 102.54MiB， 而 第 二 个 版 本 占用 的 内 存 为 0.00MiB! 有 
兴趣 的 读者 可 在 模块 itertools 中 找到 其 他 返回 迭代 器 的 函数 ， 这 个 模块 提供 了 一 组 设计 用 来 
处 理 常见 迭代 模式 的 实用 工具 。 








2.4 小 结 


通过 优化 算法 ， 可 改善 应 用 程序 的 可 伸缩 性 ,使 其 能 够 处 理 更 多 的 数据 。 本 章 演示 了 一 些 最 
常见 的 Python 数据 结构 ( 如 列表 、 双 问 队 列 、 字 典 、 堆 和 字典 树 ) 的 用 途 和 运行 时 间 ; 介绍 了 
缓存 ， 这 是 一 种 以 牺牲 一 些 空间 ( 内 存 或 磁盘 ) 为 代价 , 来 提高 应 用 程序 响应 速度 的 技术 ; 还 演 





示 了 通过 





























各 for 循环 替换 为 速度 更 快 的 结构 ， 如 列表 推导 和 生成 器 表达 式 ， 可 适度 地 提高 速度 。 











接 下 来 的 两 章 将 介绍 如 何 使 用 NumPy 等 库 来 进一步 改善 性 能 , 以 及 如 何 通过 Cython 使 用 低 














级 语言 编写 扩展 模块 。 














使 用 NumPy 和 Parigas 
快速 执行 数组 操作 














NumPy 是 Python 科学 计算 的 事实 标准 ， 它 让 Python 支持 灵活 的 多 维 数组 ， 证 数学 计算 快速 
而 简明 。 


NumPy 提供 了 一 些 常 用 的 数据 结构 和 算法 ， 让 你 能 够 使 用 简明 的 语法 来 表示 复杂 的 数学 运 
算 。 在 内 部 ,多维 数组 numpy .ndarray 是 基于 C 语言 数组 的 。 这 种 选择 除了 可 以 提高 性 能 ， 还 
让 NumPy 代码 能 够 轻松 地 与 既 有 的 C 和 FORTRAN 例 程 互 操 作 ， 从 而 在 使 用 这 些 语言 编写 的 遗 
留 代码 和 Python 之 间 搭 建 桥 梁 。 























本 章 将 介绍 如 何 创建 和 操作 NumPy 数组 , 还 将 探索 NumPy 的 广播 功能 , 它 让 你 能 够 以 高 效 
而 简明 的 方式 重 写 复 杂 的 数学 表达 式 。 


Pandas 是 一 个 严重 依赖 于 NumPy 的 工具 ， 同 时 提供 了 其 他 致力 于 数据 分 析 的 数据 结构 和 算 
法 。 我 们 将 介绍 Pandas 的 主要 功能 及 其 用 法 ， 还 将 介绍 如 何 使 用 Pandas 的 数据 结构 和 向 量化 操 
作 (vectorized operation ) 来 实现 高 性 能 。 


本 章 介 绍 如 下 主题 : 


口 创建 和 操作 NumPy 数组 ; 

口 掌握 NumPy 的 广播 功能 以 快速 而 简明 地 执行 向 量化 操作 ; 
口 使 用 NumPy 改进 粒子 模拟 器 ; 

口 使 用 numexpr 最 大 限度 地 优化 性 能 ; 

口 Pandas 基础 知识 ; 

口 使 用 Pandas 执行 数据 库 式 操作 。 






































3.1 ”NumpPy 基础 

















NumpPy 库 的 核心 是 其 多 维 数组 对 象 numpy .ndarray。NumPy 数组 是 由 一 系列 数据 类 型 相 
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同 的 元 素 组 成 的 集合 ， 这 种 基本 限制 让 NumPy 能 够 以 特定 的 方式 封装 数据 ， 从 而 能 够 高 性 能 地 
执行 数学 运算 。 


3.1.1 创建 数组 


要 创建 NumPy 数组 ,可 使 用 函数 numpy .array。 这 个 函数 将 一 个 类 似 于 列表 的 对 象 ( 或 另 
一 个 数组 ) 作为 输入 ， 还 接受 一 个 可 选 参数 表示 元 素数 据 类 型 的 字符 串 。 通 过 使 用 IPython 
shell， 可 交互 地 测试 数组 创建 代码 ， 如 下 所 示 。 





























import numpy as np 
a rav tld. 


每 个 NumPy 数组 都 有 相关 联 的 数据 类 型 , 这 可 使 用 属性 atype 来 访问 。 对 于 前 面 的 数组 a， 
其 atype 为 int64， 这 表示 64 位 整数 。 





a.dtype 
# 结果 : 
# dtype('int64') 


你 可 能 想 将 这 些 整数 转换 为 float 类 型 ， 为 此 可 在 初始 化 数组 时 传人 参数 atype， 也 可 使 
用 方法 astype 将 数组 转换 为 其 他 数据 类 型 ， 如 下 面 的 代码 所 示 。 
a es Darrav(lls 2, .31 dtype="float32") 
astype('float32') 


a. 
# 结果 : 
# array([ 0., 1., 2.], dtype=float32) 











要 创建 二 维 数组 ( 由 数组 组 成 的 数组 )， 可 在 初始 化 时 使 用 赔 套 序列 ， 如 下 所 示 。 


a Parray (ll0Or, Le 2 [3 wr S12 
print (a) 

# 输出 : 

# [[0 1 2] 

# [3 4 5]] 


以 这 种 方式 创建 的 数组 是 二 维 的 ,但 NumPy 将 维度 称 为 轴 (axes )。 这 个 数组 就 像 一 个 包含 
两 行 三 列 的 表格 。 要 访问 轴 ， 可 使 用 属性 ndarray . shape。 














a.shape 

# 结果 : 

术 (2 

你 还 可 以 调整 数组 的 形状 , 条 件 是 各 维度 的 长 度 的 乘积 与 数组 的 元 素 总 数 相等 ， 即 保持 总 元 
素 个 数 不 变 。 例 如 ， 对 于 包含 16 个 元 素 的 数组 ， 可 像 下 面 这 样 调整 其 形状 : (2，8) 、(4，4) 
或 (2，2，4)。 要 调整 数组 的 形状 ， 可 使 用 方法 ndarray .reshape， 也 可 给 重新 给 元 组 
ndarray .shape 指定 值 。 下 面 的 代码 演示 了 方法 ndarray .reshape 的 用 法 。 
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a = "parray (Cl0, 2 和 
a.shape 
输出 : 
(L637:) 


a.reshape (4，4) # 等 价 于 a.shape =(4，4) 








输出 : 

array Ctl Oy 1 3]， 
L 六 3 6 ya 
[*.-83 9 LT0% TL], 
ET 3 1 


由 于 这 种 特征 ， 你 可 随便 添加 长 度 为 1 的 维度 。 对 于 包含 16 个 元 素 的 数组 ， 你 可 将 其 形状 
调整 为 (16，1)、(1，16)、(16，1，1) 等 。 在 下 一 节 ， 我 们 将 通过 广播 利用 这 种 功能 来 执行 
复杂 的 操作 。 


NumPy 提供 了 一 些 便利 函数 , 可 用 于 创建 使 用 0 或 1 填充 的 数组 以 及 没有 初始 值 的 数组 (在 
这 种 情况 下 ， 数 组 的 实际 值 取决 于 内 存 状 态 ， 因 此 毫 无 意义 )， 如 下 面 的 代码 所 示 。 这 些 函 数 将 
以 元 组 表示 的 数组 形状 作为 参数 ， 还 有 一 个 表示 数据 类 型 的 可 选 参数 dtype。 

np.zeros((3, 3)) 


(3 
np.empty ((3, 3)) 
np.ones((3, 3), dtype='float32') 


在 我 们 的 示例 中 ， 我 们 将 使 用 模块 numpy .random 来 生成 位 于 区 间 (0, 1) 内 的 随机 浮 点 数 。 
numpy .random.rang 将 一 个 表示 形状 的 元 组 作为 参数 ， 并 返回 一 个 指定 形状 的 随机 数 数组 。 

np.random.rand (3, 3) 

在 有 些 情 况 下 ， 如 果 能 够 初始 化 一 个 与 其 他 数组 形状 相同 的 数组 将 会 很 方便 。 有 鉴于 此 ， 
NumPy 提供 了 一 些 便 利水 数 ， 如 zeros_like、 empty_like 和 ones_]1ike。 这 些 函 数 的 用 法 
如 下 : 


npD.zeros_1l1ike(a) 
np.empty_like(a) 
np.ones_like(a) 


























3.1.2 ”访问 数组 


从 表面 上 看 , NumPy 数组 的 接口 与 Python 列表 类 似 。 对 于 NumPy 数组 ,可 使 用 整数 索引 来 
访问 其 元 素 ， 还 可 使 用 for 循环 来 欠 代 其 元 素 。 


站 nparray(h0y 2] 
A[O] 

# 结果 : 

# 0 








[a for a in Al] 
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结果 : 


# 
# DO AD Sd SD G8 





在 NumPy 中 ， 可 在 下 标 运 算 符 [] 中 使 用 多 个 用 逗号 分 隔 的 索引 来 访问 数组 元 素 和 子 数 组 。 
如 果 有 一 个 (3,3) 的 数组 ( 包含 3 个 三 元 组 的 数组 )， 访 问 索 引 为 0 的 元 素 ， 得 到 的 将 是 第 一 行 ， 
如 下 所 示 。 
A r= nDearEay( 0s “L; .2 [3-4 5]s [6-81 
AL[0] 


# 结果 : 
棍 : 亲王 人 [DOD5 1 >2) 


对 于 特定 的 行 ,可 再 使 用 一 个 用 逗号 分 隔 的 索引 来 访问 其 中 的 元 素 。 例 如 ， 要 访问 第 一 行 的 
第 二 个 元 素 ， 可 使 用 索引 (0，1)。 需 要 指出 的 一 个 要 点 是 ，A[0，1] 实 际 上 是 A[ (0，1)] 的 简 
写 ， 换 而 言 之 ， 索 引 实 际 上 是 一 个 元 组 ! 下 面 的 代码 演示 了 这 两 种 版 本 。 





























A[O, 1] 
# 结果 : 
1 

# 使 用 元 组 的 等 价 版 本 
AL(0, 1)] 


NumPy 支持 在 多 个 维度 上 对 数组 执行 切片 操作 。 如 果 在 第 一 维 上 执行 切片 操作 ， 将 得 到 一 
个 由 三 元 组 组 成 的 集合 ， 如 下 所 示 。 





A[0:2] 
# 结果 : 
# array([[0，1，2]， 
# [3, 4, 5]]) 





如 果 再 使 用 0:2 在 第 二 维 上 对 数组 执行 切片 操作 ， 将 相当 于 从 前 述 每 个 三 元 组 中 提取 前 两 
个 元 素 ， 结 果 是 一 个 形状 为 (2，2) 的 数组 ， 如 下 面 的 代码 所 示 。 








A O27 Oa 

# 结果 : 

# array ([[0, 1], 

# [3, 4]]) 

要 更 新 数组 中 的 值 ， 可 使 用 数字 索引 ， 也 可 使 用 切片 ， 如 下 面 的 代码 所 示 。 
二 2 本 汪 (志和 

A O02 LL El] 


使 用 切片 语法 来 访问 数组 的 速度 非常 快 ， 因 为 不 同 于 列表 ， 这 不 会 创建 数组 的 副本 。 用 
NumPy 的 话说 ， 这 将 返回 原始 内 存 区 域 的 一 个 视图 。 如 果 我 们 获取 原始 数组 的 一 个 切片 ， 并 修 
改 其 中 的 一 个 值 ， 原 始 数组 也 将 被 修改 。 下 面 的 代码 演示 了 这 一 点 。 








As TD array(li; 二 1] 
a_view = a[0:2] 
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a_view[0] = 2 

print (a) 

# 输出 : 

# [2 111] 

修改 NumPy 数组 时 务必 万 分 小 心 。 由 于 数据 是 在 视图 之 间 共 享 的 ， 因 此 修改 视图 中 的 值 可 
能 导致 难以 找 出 的 bug。 为 避免 副作用 , 可 将 标志 a.flags .writeable 设置 为 False, 这 将 避 
免 你 无 意 间 修改 数组 或 其 视图 。 


下 面 青 来 看 一 个 示例 , 它 演示 了 在 实际 工作 中 如 何 使 用 切片 语法 。 我 们 定义 了 一 个 名 为 +_i 
的 数组 ( 如 下 面 的 代码 行 所 示 )， 它 包含 10 个 (x, yy) 坐 标 ， 因 此 形状 为 (10，2)。 























r_i = np.random.rand(10, 2) 


如 果 你 无 法 区 分 轴 排 列 顺序 不 同 的 数组 ， 如 形状 分 别 为 (10，2) 和 (2，10) 的 数 
组 ， 这 样 想 将 大 有 帮助 : 每 当 说 一 个 “的 ” 字 ， 都 将 增加 一 维 。 例如， 包含 10 

9 个 元 素 ， 而 每 个 元 素 的 长 度 都 为 2 的 数组 为 (10，2) 。 相 反 ， 包 含 两 个 元 素 ， 而 
每 个 元 素 的 长 度 都 为 10 的 数组 为 (2，10) 。 


我 们 要 执行 的 一 种 典型 操作 可 能 是 提取 每 个 坐标 中 的 x 部 分 。 换 而 言 之 ,你 可 能 想 提 取 索 引 
分 别 为 (0，0) 、(1，0) 、(2，0) 等 的 元 素 ， 结 果 是 一 个 形状 为 (10,) 的 数组 。 在 这 种 情况 下 ， 
这 样 想 大 有 帮助 : 第 一 个 索引 是 不 断 变化 的 ， 而 第 二 个 索引 是 固定 的 (始终 为 0 )。 知道 这 一 点 
后 , 我 们 就 可 在 第 一 个 轴 ( 不 断 变化 的 轴 ) 上 执行 切片 操作 , 并 在 第 二 个 轴 上 提取 第 一 个 元 素 ( 
定 的 元 素 )， 如 下 面 的 代码 行 所 示 。 












































| 


相反 ,下面 的 表达 式 保持 第 一 个 索引 不 变 , 同时 不 断 修改 第 二 个 索引 ， 因此 返回 第 一 个 (x,y) 
坐标 。 
r_0=r i[l0,:] 


对 最 后 一 个 轴 执 行 履 盖 所 有 索引 的 切片 操作 时 ， 可 显 式 地 指定 ， 也 可 省 略 ， 因 此 r_i[0] 和 
r_i[0，:] 等 效 。 


可 将 由 整数 或 布尔 值 组 成 的 一 个 NumPy 数组 作为 索引 来 访问 另 一 个 NumPy 数组 , 这 称 为 花 
式 索 引 (fancy indexing )。 


如 果 你 将 一 个 由 整数 组 成 的 数组 ( 假设 为 iax ) 作为 索引 来 访问 男 一 个 数组 (假设 为 a )， 
NumPy 将 把 这 些 整数 视 为 索引 ,并 返回 一 个 包含 相应 值 的 数组 。 如 果 你 将 np .array ([0, 2, 3]) 
作为 索引 来 访问 一 个 包含 10 个 元 素 的 数组 ， 将 获得 一 个 形状 为 (3,) 的 数组 ， 其 中 包含 原始 数组 
中 索引 分 别 为 0、2 和 3 的 元 素 。 下 面 的 代码 演示 了 这 种 概念 。 


da: TB. arrayl( LE9, 8. 7 .6 0) 
aX NDAariay( [0.25.3]) 
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a[lidx] 

# 结果 : 

# array ([9, 7, 6]) 

你 可 使 用 花 式 索引 来 访问 多 维 数组 , 方法 是 为 每 维 都 指定 一 个 数组 。 例 如， 如 果 你 要 提取 索 
引 分 别 为 (0，2) 和 (1，3) 的 元 素 ， 就 必须 将 所 有 针对 第 一 个 轴 的 索引 都 放 在 一 个 数组 中 ， 并 将 
所 有 针对 第 二 个 轴 的 索引 都 放 在 另 一 个 数组 中 ， 如 下 面 的 代码 所 示 。 








-| 

E63 573 8 
Lax Ne leartay (O44 
idx2 = np.array ([2, 3] 
a[lidxl, idx2] 


你 还 可 将 普通 列表 用 作 索 引 数组 ， 但 元 组 不 可 以 。 例 如 ， 下 面 的 两 条 语句 等 价 。 


a[np.array([0，1])] # 与 下 面 的 语句 等 价 
a[[0, 1]] 


然而 ， 如 果 你 将 元 组 用 作 索 引 ，NumPy 将 把 它 视 为 针对 多 个 维度 的 索引 。 


] 
| 
) 
) 


[(0，1)] # 与 下 面 的 语句 等 价 


a[(0， 
a[0, 1] 





索引 数组 并 非 必须 是 一 维 的 , 我 们 可 以 以 任何 形状 提取 原始 数组 中 的 元 素 。 例如 ,可 以 从 原 
始 数 组 中 提取 元 素 ， 组 成 一 个 (2，2) 的 数组 ， 如 下 所 示 。 





灶 QQ 疙 二 二 ,和 [和 [全 ys 和] 人 人 pe 之 灿 ] 
宇 Q 访 2 二 | Ow% 2 [Ly 
a[lidxl, idx2] 

# 输出 : 

# array([[ 0, 5], 

# [10, 7]]) 





可 结合 使 用 数组 切片 和 花 式 索引 功能 ， 这 在 需要 交换 坐标 数组 中 的 x 和 ?了 列 时 很 有 用 。 在 下 
面 的 代码 中 ， 第 一 个 索引 是 一 个 切片 ,覆盖 了 所 有 的 元 素 。 对 于 每 个 元 素 ， 我 们 先 提 取 位 置 1 的 
值 (y 坐标 )， 再 提取 位 置 0 的 值 (x 坐标 )。 

r_i = np.random(10, 2) 

Es Ow Lh .se, LE 

索引 数组 为 布尔 类 型 时 ， 规 则 稍 有 不 同 。 在 这 种 情况 下 ， 布 尔 数 组 犹如 描 码 : 提取 每 个 与 
True 对 应 的 元 素 ， 并 将 其 加 入 到 输出 数组 中 ， 如 下 面 的 代码 所 示 。 

a 

mask = np.array ([True, False, True, False, False, Falsel]) 

almask] 


# 输出 : 
# array([0, 2]) 
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涉及 多 个 维度 时 ,这些 规 则 也 适用 。 另 外 ,如 果 索 引 数组 与 原始 数组 的 形状 相同 ,将 选择 与 
True 对 应 的 元 素 ， 并 将 其 加 入 到 输出 数组 中 。 


在 NumPy 中 ， 索 引 操作 的 速度 相当 快 。 虽 然 如 此 ， 在 速度 至 关 重 要 时 ， 可 使 用 速度 更 快 的 
函数 numpy .take 和 numpy .compress 来 进一步 提高 性 能 。 函 数 numpy .take 的 第 一 个 参数 是 
要 操作 的 数组 ， 第 二 个 参数 是 由 要 提取 的 元 素 的 索引 组 成 的 列表 。 最 后 一 个 参数 为 axis; 如 果 
没有 指定 ， 索 引 将 应 用 于 扁平 化 后 的 数组 (flattened array )， 否 则 将 应 用 于 指定 的 轴 。 





























bn np.random(100, 2) 


np.arange(50) # 整数 0~50 


idx 


stimeit np.take(r_i, idx, axis=0) 
1000000 loops, best of 3: 962 ns per loop 


Stimeit r_i[idx] 
100000 loops, best of 3: 3.09 us per loop 


与 此 类 似 的 是 numpy .compress， 其 速度 更 快 ， 用 于 布尔 数组 ， 但 工作 原理 没什么 不 同 。 
下 面 演 示 了 numpy .compress 的 用 法 : 


In [51]: idx = np.ones(100，dtype='lbool') # 所 有 元 素 的 值 都 为 True 

















In [52]: Stimeit np.compress (idx, r_i, axis=0) 
1000000 loops, best of 3: 1.65 us per loop 
In [53]: Stimeit r_i[idx] 


100000 loops, best of 3: 5.47 us per loop 


3.1.3 广播 


NumPy 的 真正 威力 在 于 其 快速 的 数学 运算 。NumpPy 使 用 经 过 优化 的 C 语 言 代 码 来 执行 基于 
元 素 的 计算 ， 从 而 避 开 了 Python 解释 器 。 广 播 是 一 组 巧妙 的 规则 ， 使 得 能 够 对 形状 类 似 〈 但 不 
完全 相同 ) 的 数组 快速 地 执行 数组 计算 。 

每 当 你 对 两 个 数组 执行 算术 运算 ( 如 乘积 ) 时 ， 如 果 这 两 个 操作 数 的 形状 相同 ,将 以 逐 元 素 
的 方式 执行 运算 。 例 如 ， 将 两 个 形状 为 (2，2) 的 数组 相 乘 时 ， 将 把 对 应 的 元 素 对 相 乘 ， 得 到 一 
个 (2，2) 的 数组 ， 如 下 面 的 代码 所 示 。 


























A snmp.arraytl bly ly By 4]]) 

B sp arsay (lL 6] [2 Bl 

A*B 

# 输出 : 

# array (LL 5S, T1217 

# [2 Ey: S32].) 

如 果 两 个 操作 数 的 形状 不 匹配 ，NumpPy 将 尝试 使 用 广播 规则 让 它们 匹配 。 如 果 其 中 一 个 操 





作 数 为 标量 ( 如 数字 )， 将 把 它 应 用 于 数组 的 每 个 元 素 ， 如 下 面 的 代码 所 示 。 
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A*2 

# 输出 : 

# array ([[2, 4],， 

# [6 728.) 

如 果 两 个 操作 数 都 是 数组 ， 尝试 从 最 后 一 个 轴 开 始 让 它们 的 形状 匹配 。 Ce 如 
果 要 合并 两 个 形状 分 别 为 (3，2 , ) 的 数组 ， 将 把 第 二 个 数组 重复 3 次 ， 生 成 一 个 2 ) 





的 数组 。 换 而 言 之 ， - 这 个 数组 使 其 形状 与 另 一 个 操作 数 匹配 ， 如 下 图 及 东 。 


园 国 加 本 | 
TE FO Hl 
Es 
i 
[le en | 宙 | 
a] 
ees el (cl 


如 果 形 状 不 匹配 , 例如 合并 两 个 形状 分 别 为 (3,，2) 和 (2, 2) 的 数组 时 , NumPy 将 引发 异常 。 

如 果 一 个 轴 的 长 度 为 1， 将 沿 这 个 轴 重 复数 组 ， 直 到 形状 匹配 。 为 演示 这 一 点 ,假设 有 一 个 
形状 如 下 的 数组 : 

i 


现在 假设 我 们 要 在 这 个 数组 中 广播 一 个 形状 为 (5，1，2) 的 数组 ， 这 将 在 第 二 个 轴 上 重复 第 
二 个 数组 10 次 ， 如 下 所 示 。 





Al 

















10，2 
12 2 = 二 化 
10， 





Gy 


2 


前 面 说 过 ,可 通过 添加 长 度 为 1 的 轴 来 调整 数组 的 形状 。 通 过 将 常量 numpy .newaxis 用 作 
索引 ， 可 引入 一 个 维度 。 例如， 如 果 有 一 个 形状 为 (5，2) 的 数组 ， 要 将 它 与 一 个 形状 为 (5，10， 
2) 的 数组 合并 ， 可 在 中 间 添 加 一 个 轴 ， 以 得 到 一 个 形状 为 (5，1，2) 的 兼容 数组 ， 如 下 面 的 代 
码 所 示 。 




















A = np.random.rand(5, 10, 2) 
B = np.random.rand(5, 2) 
A* B[:, np.newaxis, :] 





例如 ， 可 利用 这 一 点 来 操作 两 个 数组 的 所 有 可 能 组 合 。 一 个 这 样 的 用 途 是 外 积 。 假设 有 如 下 
两 个 数组 : 
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a 
b 


外 积 是 一 个 和 矩阵， 包含 两 个 数组 中 元 素 的 各 种 组 合 的 乘积 ， 如 下 面 的 代码 所 示 。 


EX LBL alwb2 Ql*b3 
2*OL; ‘a2 263 
SOL adr NB3 


为 使 用 NumPy 计算 外 积 ， 我 们 在 一 个 维度 上 重复 元 素 [al1，a2，a3] ， 并 在 另 一 个 维度 上 
重复 元 素 [b1，b2，b3] ， 再 计算 对 应 元 素 的 乘积 ， 如 下 图 所 示 。 


al, a2, a3] 
bl B22 7353] 






































al a2| a3 oo | mi al |b1 | |az2 |b1 | |a3 |b1 
(al :la2 ;a3 | v2 | v2 v2 | al |b2 ||a2 |b2||a3 | bz 
(al iia2 :ia | v3 | oa | be | al |b3 | |a2 |b3 | |a3 | b3 


(1, 3} {3, 1) (3, 3) 



































用 代码 表示 时 ， 我 们 的 策略 是 将 数组 a 从 形状 (3，, ) 转换 为 形状 (3，1) ， 并 将 数组 b 从 形状 
(3, ) 转换 为 形状 (1，3) 。 这 样 ， 将 在 两 个 维度 上 分 别 广 播 这 两 个 数组 ， 并 将 对 应 的 元 素 相 乘 ， 
如 下 面 的 代码 所 示 。 





AB = al[:, np.newaxis] * blnp.newaxis, :] 


由 于 避免 了 Python 循环 ， 这 种 操作 的 速度 极 快 且 效果 极 佳 ， 在 处 理 大 量 元 素 时 ， 其 速度 可 
与 纯粹 的 C 或 FORTRAN 代码 媲美 。 





3.1.4 数学 运算 

NumPy 默认 支持 使 用 广播 技术 来 执行 最 常见 的 数学 运算 ， 这 包括 简单 的 代数 运算 、 三 角 运 
算 、 取 整 和 逻辑 运算 。 例 如 ， 要 对 数组 中 每 个 元 素 取 平 方 根 ， 可 使 用 numpy .sqrt， 如 下 面 的 代 
码 所 示 。 








np.sqrt (np.array ([4, 9, 16])) 
# 结果 : 
#, GEEay( [2 33 Ts]) 


在 根据 条 件 筛选 元 素 时 ， 比 较 运 算 符 很 有 用 。 假设 有 一 个 由 0~1 的 随机 数组 成 的 数组 ,而 你 
要 提取 其 中 所 有 大 于 0.5 的 数字 ， 为 此 可 对 这 个 数组 使 用 运算 符 >， 这 将 得 到 一 个 布尔 数组 ， 如 
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下 所 示 。 
a = rEangdom ranc(Sy .3 
a S03 
# 结果 : 
# array ([[ True, False, Truel], 
# [ True, True, True]， 
# [False, True， True]， 
# [ True， True, Falsel], 
# [ True， True, False]], dtype=bool) 


然后 ， 可 将 这 个 布尔 数组 作为 索引 来 获取 大 于 0.5 的 元 素 。 


a[a > 0.5] 

print (a[a>0.5]) 

# 输出 : 

# E039755. 059977 OB287 so 06214 O5669 “059553 05894 
QTE96, “O0200° .0.578E Oa828 


NumPy 还 实现 了 方法 ndarray .sum， 它 计算 特定 轴 上 所 有 元 素 的 和 。 例如， 如 果 有 一 个 形 
状 为 (5，3) 的 数组 ， 可 使 用 方法 naarray .sum 来 计算 第 一 个 轴 上 所 有 元 素 、 第 二 个 轴 上 所 有 
元 素 或 该 数组 中 所 有 元 素 的 和 ， 如 下 面 的 代码 所 示 。 








a = np.random.rand(5, 3) 
a.sum(axis=0) 

# 结果 : 

# :arraytl 25357454 23405177 25350303]) 


a.sum(axis=1) 
# 结果 : 
#' -array(ill L74985 L2491; L815T; L9320;. 0..5814]) 


a.sum() # 没有 指定 参数 时 ， 将 作用 于 扁平 化 后 的 数组 
# 结果 : 
e3275 


请 注意 ,通过 在 特定 轴 上 求 和 , 将 消除 这 个 轴 。 从 前 面 的 示例 可 知 ,在 轴 0 上 求 和 得 到 的 是 
一 个 形状 为 (3, ) 的 数组 ， 而 在 轴 1 上 求 和 得 到 的 是 一 个 形状 为 (5, ) 的 数组 。 


3.1.5 ”计算 范 数 
为 复习 前 面 介绍 的 基本 概念 , 我 们 来 计算 一 组 坐标 的 范 数 。 对 于 二 维 向 量 , 范 数 的 定义 如 下 : 





norm = SArt (Ke Ey 


给 定 一 个 包含 10 个 (x, yy) 坐标 的 数组 ， 我 们 要 计算 每 个 坐标 的 范 数 。 为 计算 范 数 ， 可 采取 如 
下 步 又 。 


(1) 计算 坐标 值 的 平方 ， 得 到 一 个 元 素 值 为 (x**2，y**2) 的 数组 。 
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(2) 使 用 numpy . sum 在 最 后 一 个 轴 上 将 元 素 相 加 。 
(3) 使 用 numpy .sart 计算 每 个 元 素 的 平方 根 。 


最 终 的 表达 式 可 压缩 成 一 行 代码 : 





r_i = np.random.rand(10, 2) 

norm = np.sqrt((r_i ** 2).sum(axis=1)) 

print (norm) 

# 输出 : 

#07314 -0.9050. ‘0%5063.— .0.2553 “OW0778 09143. T3245 
059486- T0101.0212 


3.2 ”使 用 NumpPy 重 写 粒子 模拟 器 
本 节 将 优化 粒子 模拟 器 一 一 使 用 NumPy 重 写 其 中 一 些 部 分 。 从 第 1 章 所 做 的 剖析 可 知 ， 在 
这 个 程序 中 ， 最 慢 的 部 分 是 方法 Particlesimulator.evolve 中 的 如 下 循环 。 


for i in range (nsteps) : 
for p in self.particles: 


norm = (Pp.X**2 + DYxx2)xx0.5 
V_X = (-p.y)/norm 
/OF 让 

dx = timestep * p.ang vel * Vv x 
dy = timestep * p.ang_vel * vy 
让 5 区 Ns We 

ply += dy 


你 可 能 注意 到 了 , 这 个 循环 体 只 处 理 当 前 粒子 。 如 果 我 们 有 一 个 包含 粒子 位 置 和 角速度 的 数 
组 , 就 可 使 用 广播 操作 来 重 写 这 个 循环 。 但 这 个 循环 的 每 个 迭代 都 依赖 于 前 一 个 迭代 ， 因 此 无 法 
采用 这 种 方式 进行 并 行 化 。 

有 鉴于 此 , 一 种 自然 而 然 的 选择 是 , 将 所 有 位 置 坐标 都 存储 在 一 个 形状 为 (nparticles，2) 
的 数组 中 ， 并 将 角速度 存储 在 一 个 形状 为 (nparticles,) 的 数组 中 ， 其 中 nparticles 是 粒子 
总 数 。 我 们 将 这 两 个 数组 分 别 命名 为 r+_i 和 ang_vel_i: 


rr i = np.array ([[p.x, p.y] for p in self.particles]) 
ang_vel_i = np.array ([p.ang_vel for p in self.particles]) 


速度 的 方向 垂直 于 向 量 (x, y)， 其 定义 如 下 : 


V2 
WV- 


可 使 用 3.1.5 节 演 示 的 策略 来 计算 范 数 : 


NOP- 区 0is5 

















-y / norm 
x / norm 


48 第 3 章 使 用 NumPy 和 Pandas 快速 执行 数组 操作 





为 计算 组 分 (-y, x)， 首 先 需 要 将 数组 r_i 的 x 和 了 列 交换 ， 再 将 第 一 列 乘 以 -1， 如 下 面 的 代 
码 所 示 。 


Vs MDT OP) GT 
0] 


为 计算 位 移 , 需要 计算 v_i、ang_vel_i 和 timestep 的 乘积 。 由 于 ang_vel_i 的 形状 为 
(nparticles,)， 因 此 需要 给 它 添 加 一 个 轴 ， 以 便 将 其 与 形状 为 (nparticles，2) 的 vi 相 
乘 。 为 此 ， 我 们 使 用 numpy.newaxis， 如 下 所 示 。 








Qi = timestep * ang vel _i[:, np.newaxis] * Vv_i 
r_i += Qi 


在 循环 外 部 ， 我 们 必须 使 用 新 的 x 和 了 坐标 更 新 粒子 实例 。 


for i, p in enumerate(self.particles): 
p.x, p.y = r_il[i] 


总 之 ， 我 们 将 实现 一 个 名 为 Particlesimulator.evolve_numpy 的 方法 ， 并 使 用 基准 测 
试 将 其 同 纯粹 的 Python 版 本 ( 更 名 为 ParticleSimulator.evolve_python ) 进行 比较 。 





def evolve numpy (self, dt): 
timestep = 0.00001 
nsteps = int (dt/timestep) 


rr i = np.array ([[p.x, p.y] for p in self.particles]) 
ang_vel_i = np.array ([p.ang_vel for p in self.particles]) 


for i in range (nsteps): 


norm i = np.sqaqrt((r_i xx 2).suml(axis=1)) 
| 

区 和 下 z= SL 

Vv_i /= norm i[:, np.newaxis] 

Qi = timestep * ang_vel_ i[:, np.newaxis] * Vv_i 


pai 


for i, p in enumerate(self.particles): 
p.x, p.y = r_il[il] 


我 们 还 将 修改 基准 测试 程序 ， 以 便 方便 地 调整 粒子 数 和 模拟 方法 ， 如 下 所 示 。 


def benchmark (npart=100, method='python' 


) 
0) 
0 


particles = [Particle(uniform(-1.0, 1.0), 
uniform(-1.0, 1.0), 
uniform(-1.0, 1.0)) 

( 


for i in range (npart)] 
simulator = ParticleSimulator (particles) 


if method=='python': 
simulator.evolve python(0.1) 
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elif method == 'numpy ' : 
Simulator.evolve_numpy(0.1) 


下 面 在 了 Python 会 话 中 运行 基准 测试 程序 。 


from simul import benchmark 

stimeit benchmark (100, 'python') 

1 loops, best of 3: 614 ms per loop 
stimeit benchmark (100, 'numpy') 

1 loops, best of 3: 415 ms per loop 


速度 有 一 定 的 提升 ， 幅 度 看 起 来 虽然 不 是 很 大 ,但 NumPy 在 处 理 大 型 数组 方面 的 威力 展示 

出 来 了 。 如 果 我 们 增加 粒子 数 ， 将 发 现 性 能 提升 更 为 明显 。 3 
stimeit benchmark (1000, 'python') 
1 loops, best of 3: 6.13 s per loop 


stimeit benchmark (1000, 'numpy') 
1 loops, best of 3: 852 ms per loop 


下 图 是 根据 使 用 不 同 的 粒子 数 运行 基准 测试 程序 得 到 的 结果 绘制 而 成 的 。 
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该 图 表明 ， 这 两 种 实现 的 运行 时 间 都 与 粒子 数 成 正比 ， 但 纯粹 的 Python 版 本 的 运行 时 间 的 
增 速 比 NumpPy 版 本 大 得 多 。 粒 子 数 越 多 ，NumpPy 的 优势 越 大 。 一 般 而 言 ， 使 用 NumPy 时 ， 应 
尽量 将 数据 放 在 大 型 数组 中 ， 并 使 用 广播 功能 将 计算 编组 。 








3.3 ”使 用 numexpr 最 大 限度 地 提高 性 能 


处 理 复杂 的 表达 式 时 ，NumPy 将 中 间 结 果 存 储 在 中 。 David M. Cooke 编写 了 一 个 名 为 
numexpr 的 包 ， 能 够 动态 地 优化 并 编译 数组 表达 式 。 这 个 包 还 能 够 优化 CPU 缓存 使 用 量 ， 并 利 
用 多 个 处 理 器 。 
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这 个 包 基 于 单个 函数 numexpr .evaluate， 使 用 起 来 通常 比较 简单 。 这 个 函数 将 一 个 包含 
数组 表达 式 的 字符 串 作 为 第 一 个 参数 ， 其 语法 与 NumPy 大 致 相同 。 例 如 ， 可 像 下 面 这 样 来 计算 
简单 表达 式 a + b * co 

np.random.rand(10000) 
.random.rand(10000) 


np.random.rand(10000) 
ne.evaluate('a +b* c') 


几乎 在 任何 情况 下 ， 使 用 numexpr 包 都 可 改善 性 能 ,但 仅 当 用 于 处 理 大 型 数组 时 ， 性 能 提 
升 才 会 特别 大 。 一 个 涉及 大 型 数组 的 应 用 程序 是 计算 距离 矩阵 。 在 粒子 系统 中 , 距离 矩阵 包含 任 
何 两 个 粒子 之 间 的 距离 。 要 计算 这 个 矩阵 , 首先 需要 计算 将 任何 两 个 粒子 (i,j) 连 接 起 来 的 向 量 ， 
如 下 所 示 。 





Pao oy 
Ll 
5 
3 



































x_j =- x i 
i 


| 
y_ij 


接 下 来 ,计算 这 个 向 量 的 长 度 ( 即 范 数 )， 如 下 面 的 代码 所 示 。 


d_ij = sart (x _ ij**2 + y_ij**2) 
在 NumPy 中 ， 可 使 用 广播 规则 来 编写 这 样 的 代码 ( 这 种 运算 类 似 于 外 积 ): 


r= np.random.rand(10000, 2) 




















r i= r[:, np.newaxis] 
rj = rliip.newaxis, “:] 
(e Wit ee A eat 


然后 ， 在 最 后 一 个 轴 上 计算 范 数 ， 如 下 面 的 代码 所 示 。 





dorE((dj 人 2) Utaxise2)) 


使 用 numexpr 语法 重 写 这 个 表达 式 很 容易 。numexpr 包 不 支持 在 数组 表达 式 中 使 用 切片 ， 
因此 我 们 首先 需要 在 操作 数 中 添加 额外 的 维度 以 支持 广播 ， 如 下 所 示 。 


np.random(10000, 2) 





= r[:, np.newaxis] 


rinp.newaxis, :] 
应 将 尽 可 能 多 的 操作 放 在 一 个 表达 式 中 ， 这 样 才 能 实现 明显 的 优化 。 


大 多 数 NumPy 数学 函数 在 numexpr 包 中 都 有 , 但 有 一 个 限制 , 那 就 是 归 约 操作 ( 消除 一 个 
轴 的 操作 ， 如 sum ) 必须 最 后 执行 。 因 此 ， 我 们 必须 先 计算 总 和 ， 再 离开 numexpr， 然 后 使 用 
另 一 个 表达 式 来 计算 平方 根 。 


qd_ij 


加 


numexpr 编译 器 不 存储 中 间 结 果 , 以 避免 不 必要 的 内 存 分 配 























ne.evaluate('sum((r_ j - r_ i)**2, 2)') 
ne.evaluate('sqaqrt (gd_ij)') 




















它 还 尽 可 能 将 运算 分 给 多 个 处 








O 


3.4 Pandas $1 





理 器 去 执行 。 在 文件 distance_matrix.py 中 ， 有 两 个 函数 实现 了 这 两 个 版 本 : distance_matrix_ 


numpy 和 distance matrix numexpro 





from distance matrix import (distance matrix_numpy, 
distance matrix_ numexpr) 

stimeit distance matrix numpy (10000) 

1 loops, best of 3: 3.56 s per loop 

Stimeit distance matrix numexpr(10000) 

1 loops, best of 3: 858 ms per loop 


通过 对 表达 式 进 行 转换 ， 以 使 用 numexpr， 就 让 性 能 提高 到 了 使 用 标准 NumPy 的 4.5 倍 。 
每 当 你 需要 优化 涉及 大 型 数组 和 复杂 运算 的 NumPy 表达 式 时 , 都 可 使 用 numexpr 包 , 而 且 只 需 
对 代码 做 很 少 的 修改 。 











3.4 Pandas 


Pandas 是 一 个 设计 用 于 以 无 颖 而 高 效 的 方式 分 析 数 据 集 的 库 ， 最 初 是 由 Wes McKinney 开发 
的 。 最 近 几 年 ， 这 个 功能 强大 的 库 风 生 水 起 ,被 Python 社区 广泛 使 用 。 本 节 将 简要 地 介绍 这 个 
库 的 主要 概念 及 其 提供 的 主要 工具 ， 在 很 多 NumPy 向 量化 操作 和 广播 技术 无 能 为 力 的 情况 下 ， 
都 可 使 用 它 来 提升 性 能 。 


























3.4.1 Pandas 基础 


NumPy 的 主要 目标 是 处 理 数 组 ， 而 Pandas 的 主要 数据 结构 为 pandas .Series、pandas. 
DataFrame 和 pandqas.Panel。 在 本 章 余 下 的 篇 幅 中 ， 我 们 将 把 pandas 简称 为 pa。 


pd.Series 对 象 和 np .array 的 主要 不 同 在 于 , pd.Series 对 象 将 每 个 数组 元 素 都 关联 到 
一 个 键 。 下 面 通过 一 个 示例 来 看 看 其 工作 原理 。 


假设 我 们 要 测试 一 种 新 推出 的 降 压 药 , 对 于 每 位 患者 , 我 们 都 要 记录 他 服用 这 种 新 药 后 血压 
是 否 得 到 了 改善 。 为 对 这 种 信息 进行 编码 ， 可 将 每 个 测试 对 象 的 ID ( 用 一 个 整数 表示 ) 关联 到 
True( 如 果 这 种 新 药 有 效 ) 或 False (如 果 无 效 ) 


我 们 可 创建 一 个 pda. series 对 象 ， 将 一 个 包含 键 (患者 ) 的 数组 关联 到 一 个 表示 效果 的 数 
组 。 可 通过 参数 index 将 键 数 组 传递 给 构造 函数 Series， 如 下 面 的 代码 所 示 。 
import pandas as pd 


patients = [0, 1, 2, 3] 
effective = [True, True, False, Falsel] 









































effective_series = pd.Series (effective, index=patients) 


从 技术 上 说 ,要 将 一 组 整数 (0~N ) 关联 到 一 组 值 ， 也 可 使 用 np .array 来 实现 ， 因 为 在 这 
种 情况 下 ， 键 就 是 元 素 在 数组 中 的 位 置 。 在 Pandas 中 ， 键 不 仅 可 以 是 整数 ， 还 可 以 是 字符 捉 、 
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浮 点 数 和 可 散 列 的 Python 对 象 。 例 如 ， 很 容易 将 ID 变 成 字符 串 ， 如 下 面 的 代码 所 示 。 


patients a [a Ws we vw 
effective = [True, True, False, Falsel] 


effective_ series = pd.Series (effective, index=patients) 


有 趣 的 是 ， 可 将 NumPy 数组 视 为 类 似 于 Python 列表 的 连续 值 集合 ， 可 将 Pandas 对 象 
pd.Series 视 为 一 种 将 键 映射 到 值 的 结构 ， 就 像 Python 字典 。 

如 果 要 存储 每 位 患者 原来 的 血压 和 服药 后 的 血压 ， 该 如 何 做 呢 ? 在 Pandas 中 ， 可 使 用 
pd.DataFrame 对 象 将 多 项 数据 关联 到 同一 个 键 。 


要 创建 bda.DataFrame， 方 法 与 创建 pd.Series 对 象 类 似 : 传递 一 个 由 列 构成 的 字典 和 一 
个 索引 。 下 面 的 示例 演示 了 如 何 创 建 一 个 包含 4 列 的 pa.DataFrame, 这 4 列 分 别 表 示 服 药 前 后 
的 高 压 和 低压 。 


ly 
































patdente eS, [Tas TH ET] 
columns = { 
"evs TnitiaL i [L207 .12.65. -130;, 115] > 
MATa Lint Tial .75s 83.905 区 本 
Veys. final vt., TIES -123» 130; 118]; 
"qiar flrnal Ys 0 2 92 837] 


} 
df = pd.DataFrame (columns, index=patients) 


你 可 将 pq .DataFrame 视 为 一 个 pg. Series 集合 。 事实 上 ， 可 直接 使 用 由 pd.series 实 
例 组 成 的 字典 来 创建 pg .DataFrame。 




















columns = { 
"sys_initial": pd.Series([120, 126, 130, 115], index=patients), 
"dia_initial": pd.Series([75, 85, 90, 87], index=patients), 
"sys_final": pd.Series([115, 123, 130, 118], index=patients), 
"dia_final": pd.Series([70, 82, 92, 87], index=patients) 

} 


df = pd.DataFrame (columns) 


要 查看 pd.DataFrame 和 pd.Series 对 象 的 内 容 ， 可 分 别 使 用 方法 pd .Series.head 和 
pd.DataFrame.head, 它们 将 打印 数据 集 的 开头 几 行 。 








effective_series.head() 
输出 : 

a True 

b True 

C False 

d False 


HL 
# 
Ht 
HL 
# 
# dtype: bool 
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df .head () 

# 输出 : 

# dia_ final dia initial sys_final sys_initial 
# a 70 ee} 115 120 
# b 82 85 123 126 
# Cc 92 90 130 130 
# ad 87 87 118 ELS 


pd.DataFrame 可 用 于 存储 由 pq. series 组 成 的 集合 ， 同 样 ， 可 使 用 pq. Panel 来 存储 由 
pd.DataFrames 组 成 的 集合 。 这 里 不 会 介绍 pa.Panel 的 用 法 ， 因 为 它 不 像 pda.series 和 
pd.DataFrame 使 用 得 那么 频繁 。 有 关 pd. Panel 的 详细 信息 ， 请 参阅 相关 的 文档 。 


访问 series 和 DataFrame 对 象 的 内 容 
要 获取 pq.Sseries 中 与 指定 键 相 关联 的 数据 ， 可 使 用 属性 pda.series .1loc 并 指定 索引 。 


effective_series.loc["a"] 
结果 : 


True 
了 岂可 使 用 属性 pq .series .iloc, 根据 元 素 在 底层 数组 中 的 位 置 来 访问 它 。 
effective_ series.iloc[0] 
结果 : 
True 
还 可 使 用 属性 pa .series.ix 以 混合 的 方式 访问 元 素 。 在 这 种 情况 下 ， 如 果 指 定 的 值 不 是 
整数 ， 将 把 它 视 为 键 来 提取 相应 的 元 素 ， 否 则 将 把 它 视 为 位 置 来 提取 相应 的 元 素 。 直 接 访问 
pd.Series 时 ， 情 况 与 此 类 似 。 下 面 的 示例 演示 了 这 些 概念 。 


effective_series.ix["a"] # 根据 键 访问 
effective_series.ix[0] # 根据 位 置 访问 
























































# 等 价 于 
effective_series["a"] # 根据 键 访问 
effective_series[0] # 根据 位 置 访问 


请 注意 ， 如 果 索 引 为 整数 ， 这 个 方法 将 退化 为 只 支持 键 的 方法 ( 就 像 1oc 一 样 )。 在 这 种 情 
况 下 ， 要 根据 位 置 访问 元 素 ， 只 能 使 用 方法 iloc。 


访问 pa.DataFrame 的 方式 与 此 类 似 。 例如, 可 使 用 ppd .DataFrame.1oc 根据 键 来 提取 相 
应 的 行 ， 可 使 用 pd.DataFrame.iloc 根据 位 置 来 提取 相应 的 行 。 


dt、 L6G[ "a 

df.iloc[0] 

结果 : 

dia_final 70 
dia_initial 75 
sys_final 115 
sys_initial 120 

Name: a, dtype: int64 
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这 里 的 一 个 重点 是 ， 返 回 的 是 一 个 pa .series， 其 中 每 列 都 是 一 个 新 键 。 要 获取 特定 的 行 
和 列 , 可 使 用 下 面 的 代码 , 其 中 属性 loc 根据 键 来 确定 行 和 列 , 而 iloc 根据 整数 来 确定 行 和 列 。 














dft.loc["a"，"sys_initial"] # 等 价 于 
df lOcGL Ta] lo Ts TitT 人 LO] 


df.iloc[0，1] # 等 价 于 
df.iloc[0] .iloc[1] 








访问 pa.DataFrame 时 ， 可 使 用 属性 ix 以 混合 的 方式 指定 元 素 。 例 如 ， 要 获取 第 0 行 的 











sys_initial 列 ， 可 像 下 面 这 样 做 : 


df iQ Toy rirtal™] 





要 根据 名 称 获 取 pd.DataFrame 中 特定 的 列 ， 可 使 用 常规 索引 ， 也 可 使 用 属性 。 要 根据 位 
置 来 获取 特定 的 列 , 可 使 用 iloc, 也 可 先 使 用 属性 pq .DataFrame .column 来 获取 该 列 的 名 称 。 














# 根据 名 称 获取 列 
df["sys_initial"] # 等 价 于 
df.sys_initial 


# 根据 位 置 获取 列 
df[df.columns[2]] # 等 价 于 
可 EGG[ 2] 





这 些 方法 还 支持 类 似 于 NumPy 中 的 复杂 索引 ， 如 布尔 值 、 列 表 和 整 型 数组 。 


现在 该 谈 谈 性 能 方面 了 。Pandas 中 的 索引 与 字典 的 索引 有 些 不 同 





。 例如 ,在 字典 中 ， 每 个 键 

















都 必须 是 独一无二 的 ， 而 Pandas 索引 可 包含 重复 的 元 素 。 然 而 ， 这 种 灵活 性 是 要 付出 代价 的 : 
在 索引 不 是 独一无二 的 情况 下 ， 元 素 的 访问 性 能 将 急剧 降低 ， 其 时 间 复 杂 度 为 O(N)( 就 像 线性 








查找 )， 而 不 像 字典 那样 为 0(1)。 























为 减轻 这 种 影响 ， 一 种 方法 是 对 索引 排序 ， 这 样 Pandas 就 可 使 月 


计算 复杂 度 为 O(log(N)) 的 





二 分 查找 法 ， 其 性 能 比 线 性 查找 高 得 多 。 要 对 索引 进行 排序 ， 
sort_index， 如 下 面 的 代码 所 示 ( 这 也 适用 于 pd .DataFrame )。 


# 创建 一 个 包含 重复 索引 的 Series 
index = list(range(1000)) + list (range(1000)) 





# 访问 常规 Series 的 时 间 复 杂 度 为 O(N) 
series = pd.Series(range(2000), index=index) 


# 通过 排序 ， 可 改善 查找 操作 的 时 间 复 杂 度 ， 使 其 为 O(Iog(N) ) 


series.sort_index(inplace=True) 


下 表 总 结 了 不 同 版 本 的 时 间 复 杂 度 。 


可 使 用 函数 pd.Series. 
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索引 类 型 N=10 000 N=20 000 N=30 000 时 间 
独一无二 12.30 12.58 13.30 0O(1) 
不 独一无二 494.95 814.10 1129.95 O(N) 
不 独一无二 (经 过 排序 ) 145.93 145.81 145.66 O(log(N)) 














3.4.2 ”使 用 Pandas 执行 数据 库 式 操 作 


你 可 能 注意 到 了 ， 表 格式 数据 类 似 于 数据 库 中 存储 的 数据 。 数 据 库 通 常 是 根据 主键 访问 的 ， 
其 中 各 列 的 数据 类 型 可 以 不 同 ， 就 像 pd .DataFrame 一 样 。 


在 Pandas 中 ， 索 引 操 作 的 效率 很 高 ， 因 此 可 执行 数据 库 式 操作 ， 如 计数 、 连 接 、 分 组 和 


聚合 。 
1. 映射 


与 NumPy 一 样 ，Pandas 支持 逐 元 素 操作 (毕竟 pda.series 是 使 用 np .array 来 存储 数据 
的 )。 例 如 ， 可 轻松 地 对 pa.series 和 pda.DataFrame 进行 变换 。 









































np.log(df.sys_initial) # 计算 Series 的 对 数 
邮 df.sys_initial xx 2 # 计算 Series 的 平方 
np.1log (df) # 计算 DataFrame 的 对 数 
电 加 人 # 计算 DataFrame 的 平方 


还 可 像 NumPy 中 那样 ， 对 两 个 pa .series 执行 逐 元 素 运算 ， 但 一 个 重要 的 不 同 是 ， 将 根 
据 键 而 不 是 位 置 来 匹配 操作 数 ， 如 果 索 引 不 匹配 ， 结 果 将 为 NaN。 下 面 的 示例 演示 了 这 些 情 况 。 
索引 匹配 


a = pd.Series([1, 2, 3], index=["a" 
= pd.Series([4, 5, 6], index=[" 











AAA 


际 : 


type: int64 


索引 不 匹配 

= pd.Series([4, 5, 6], index=["a", "b", "d"]) 
结果 : 

a 5.0 

0 

C NaN 

Q NaN 

dtype: float64 


为 增加 灵活 性 ，Pandas 暴露 了 方法 map、apply 和 applymap， 你 可 使 用 它们 来 执行 特定 的 


[ea 
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方法 pd. Series .map 可 用 来 对 每 个 值 执行 指定 的 函数 , 它 返 回 一 个 包含 结果 的 pd. Series。 
下 面 的 示例 演示 了 如 何 对 pd.Series 的 每 个 元 素 执行 函数 superstaro 





a = pd.Series([1, 2, 3], index=["a", "b", "c"]) 
def superstar (x): 

TEUrN "BET(RY Pt 
a.map (superstar) 


# 结果 : 

# a 大 工大 

# b *2* 

#3 

# dtype: object 


函数 pd.DataFrame.applymap pd.Series.map 的 作用 相同 ， 但 用 于 DataFrameo 


df.applymap (superstar) 


# 结果 : 

# dia final dia initial sys_final sys_initial 
# a 类 中 条 家 关 示 与 尖 炎 外 于 后 过 *120* 
# b 2 *.89* 12.3 光 be 
# c 类 全 2 关 :全 人 沽 0 起 类 和 0 类 
# ad 87 #87# *118* * 上 15* 











最 后 ， 函 数 pd .DataFrame .apply 对 每 列 或 每 行 ( 而 不 是 每 个 元 素 ) 执行 传人 的 函数 。 要 
§ 定 对 每 列 还 是 每 行 执行 指定 的 函数 ， 可 使 用 参数 axis: 其 值 为 0( 默认 值 ) 时 对 每 列 执行 指 
定 的 函数 , 为 1 时 对 每 行 执行 指定 的 函数 。 另 外 , 请 注意 , 这 个 函数 的 返回 值 是 一 个 pda. Series。 














df.apply (superstar, axis=0) 

# 结果 : 

dia_final *a 70nb 82nc 92nd 87nName: dia... 
dia_ initial *a 75nb 85nc 90ngd 87nName: dia... 
sys_final *a 115nb 123nc 130ngd ll8nName:... 
sys_initial *a 120nb 126nc 130ngd ll5nName:... 
dtype: object 


填 砷 井 砷 井 


df.apply (superstar, axis=1) 

# 结果 : 

# a *dia final 70ndia initial 75nsys_f... 
# b *dia_ final 82ndia initial 85nsys_f... 
# c *dia final 92ndia initial 90nsys_f... 
# Q *dia final 87ndia initial 87nsys_f... 
# dtype: object 





Pandas 还 通过 便利 方法 eval 支持 高 效 的 numexpr 式 表 达 式 。 例 如 ， 如 果 要 计算 服药 前 后 
的 血压 差 ， 可 以 字符 串 的 方式 编写 相应 的 表达 式 ， 如 下 面 的 代码 所 示 。 


df.eval ("sys_final - sys_initial") 
# 结果 : 
# a -5 
# b -3 
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还 可 在 传递 给 pa .DataFrame .eval 的 表达 式 中 使 用 赋值 运算 符 来 创建 新 列 。 请 注意 ， 如 
果 将 参数 inplace 设置 成 了 True， 将 直接 在 原始 pd .DataFrame 上 操作 ， 否 则 这 个 函数 将 返 
回 一 个 新 的 DataFrame。 下 面 的 示例 计算 sys_final 和 sys_initial 的 差 , 并 将 结果 存储 在 
sys_delta 列 中 。 














dft .eval("SySs_delta = sys_ final - sys_ initial", inplace=False) 





# 结果 : 

# dia final dia initial sys_final sys_initial sys_delta 
# a 70 了 5 115 120 5 
# b 82 85 123 126 -3 
#7 过 92 90 130 130 0 
#4a 87 87 118 115 3 
2. 分 组 、 聚 合 和 变换 








Pandas 最 令 人 称道 的 特征 之 一 是 , 能 够 以 简洁 的 方式 表示 对 数据 进行 分 组 、 变 换 和 聚合 的 数 
据 分 析 管 道 。 为 演示 这 个 概念 , 我 们 扩展 前 面 的 数据 集 , 在 其 中 添加 两 位 没有 服用 新 药 的 患者 ( 这 
通常 称 为 对 照 组 )。 另 外 ， 再 增加 一 列 ， 用 于 记录 患者 是 否 服用 了 新 药 。 


























batiente. ee Na. eb ter, Lar, Le, 
columns = { 
vByS. in1itialys [L120 126: L305 L165 <1505.. T1371] 
vdia nitiaL ( [75 :85 090% BY 90 24], 
veyev Firel ,LL "123 -130 L198 130 L121. 
"dia finanaL"s |[Y00. -82 92 377 85:. 74]s 
"drug_admst": [True, True, True, True, False, Falsel] 


4. 
df = pd.DataFrame (columns, index=patients) 


此 时 ,我 们 可 能 想 知 道 两 组 患者 的 血压 变化 情况 有 何不 同 .为 此 ,可 使 用 函数 pa.DataFrame . 
groupby 根据 drug_amst 列 对 患者 进行 分 组 。 这 个 函数 返回 一 个 DataFrameGroupBy 对 象 ， 
可 通过 迭代 它 来 获得 一 系列 pa.DataFrame， 它 们 分 别 对 应 于 arug_aqmst 列 不 同 的 值 。 





























df.groupby ('drug_admst') 
for value, group in df.groupby ('drug_admst'): 
print ("Value: {}".format (value)) 
print ("Group DataFrame:") 
print (group) 
输出 : 
Value: False 
Group DataFrame: 
dia final dia initial drug_admst sys_final sys_initial 
e 85 90 False 130 150 
f 74 74 False 121 117 


井 间 间 间 间 关 
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# Value: True 

# Group DataFrame: 

# dia final dia initial drug_admst sys_final sys_initial 
# a 70 了 True 115 120 
# Pb 82 85 True 123 126 
#c 92 90 True 130 130 
#4d 87 87 True 118 115 





几乎 在 任何 情况 下 ， 都 无 须 迭 代 DataFrameGroupBy 对 象 ， 因 为 可 直接 计算 与 分 组 相关 的 
属性 ， 这 都 是 方法 串 接 的 功劳 。 例 如 ， 我 们 可 能 想 计算 每 个 分 组 的 平均 值 、 最 大 值 或 标准 高 差 。 
以 某 种 方式 对 数据 进行 汇总 的 运算 都 称 为 聚合 ， 可 使 用 方法 agg 来 完成 。 这 个 方法 返回 一 个 将 
分 组 变量 与 聚合 结果 关联 起 来 的 pda.DataFtrame， 如 下 面 的 代码 所 示 。 



































df .groupby('darug_admst ' ) .agg(np.mean) 


# dia final dia initial sys_final sys_initial 
# drug_admst 

# False 79.50 82.00 L125%5: 133.50 
# True 82.75 84.25 121.5 122.75 

















也 可 对 并 非 表 示 汇 总 的 DataFrame 分 组 进行 处 理 ， 一 个 这 样 的 常见 操作 是 补 全 缺失 的 值 。 
这 些 中 间 步 又 称 为 变换 。 


下 面 通过 一 个 示例 来 演示 这 个 概念 。 假 设 数据 集中 缺失 了 一 些 值 , 而 我 们 想 将 它们 设置 为 同 
一 分 组 中 其 他 值 的 平均 值 ， 为 此 可 使 用 如 下 变换 。 








df.loc['a','sys initial'] = None 

df .groupby('dqrug_admst ' ) .transform(Lambda df: df.fillnal(df.mean())) 
# dia final dia initial sys_final sys_initial 

# a 70 75 115 123.666667 

# b 82 85 123 126.000000 

# Cc 92 90 130 130.000000 

# dad 87 87 118 115.000000 

# e 85 90 130 150.000000 

# 荆 74 74 121 117.000000 

3. 连接 





为 聚合 分 散在 不 同 表 中 的 数据 , 连接 很 有 用 。 假设 我 们 要 在 前 述 数据 集中 包含 患者 接受 治疗 
的 医院 的 位 置 。 可 使 用 标签 HL 、H2 和 H3 来 表示 患者 是 在 哪 家 医院 接受 的 治疗 ， 并 将 医院 的 地 
址 和 名 称 存储 在 hospital 表 中 。 
































hospitals = pda.DataFrame 人 


{ /Ti 
"address" : ["Address 1", "Address 2", "Address 3"]， 
"ely Ciey LA GLY 2 "OTCY 3 ee} 
1ndex=[ “Hl” . "H2 中 "H3 有 | 
hospital_id 和 ["H1"， "H2" ， "H2" ， "H3" ， "H3" ， "H3"] 


dfl*"hoesital TQ] ss" osBital- 21g 
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现在 我 们 要 确定 每 位 患者 是 在 哪 座 城市 接受 的 治疗 ,为 此 需要 将 hospital_iga 列 中 的 键 映 
射 到 存储 在 hospitals 表 中 的 城市 。 


在 Python 中 ， 这 可 使 用 字典 来 实现 。 











hospital_dict { 


























"Hil": ("City 1", "Name 1", "Address 1"), 
"H2": ("City 2", "Name 2", "Address 2"), 
"H3": ("City 3", "Name 3", "Address 3") 
} 
cities = [hospital_ dict[key] [0] 
for key in hospital_id] 
这 种 算法 的 效率 很 高 ， 其 时 间 复 杂 度 为 O(N)， 其 中 N 是 hospital_id 的 长 度 。Pandas 让 


你 能 够 使 用 简单 索引 执行 上 面 的 操作 ， 其 优点 在 于 连接 将 使 用 经 过 高 度 优化 的 Cython 和 高 效 的 
散 列 算法 来 执行 。 对 于 前 述 简单 的 Python 表达 式 ， 可 轻松 地 将 其 转换 为 Pandas 代码 ， 如 下 所 示 。 
cities = hospitals.loc[hospital_id, "city"] 
要 执行 更 复杂 的 连接 , 可 使 用 方法 pd .DataFrame .join, 它 将 生成 一 个 新 的 pda.DataFrame， 
将 患者 关联 到 其 接受 治疗 的 医院 的 信息 。 


result = df.join(hospitals, on='hospital_id') 
result.columns 








# 结果 : 

# Index(['dia final', 'dia initial', 'drug_admst', 
# 'sys_final', 'sys_initial', 

# 'hospital_id', 'address', 'city', 'name'], 

# dtype='object') 


3.5 ”小结 


本 章 介绍 了 如 何 操作 NumPy 数组 ， 以 及 如 何 使 用 数组 广播 技术 编写 快速 的 数学 表达 式 。 利 
用 这 些 知识 ， 你 可 编写 更 简洁 、 表 达 力 更 丰富 的 代码 ， 同 时 极 大 地 改善 性 能 。 本 章 还 介绍 了 
numexpr 库 ， 通 过 使 用 它 ， 你 只 需 做 少量 的 工作 就 可 进一步 提高 NumPy 计算 的 速度 。 

Pandas 实现 了 一 些 对 分 析 大 型 数据 集 很 有 帮助 的 高 效 的 数据 结构 。 具 体 地 说 , Pandas 擅长 处 
理 将 非 整 数 键 作 为 索引 的 数据 ， 它 还 提供 了 速度 极 快 的 散 列 算法 。 

处 理 大 型 同 质 输入 时 ，NumPy 和 Pandas 很 好 用 ， 但 当 表达 式 非 常 复 杂 、 无 法 使 用 这 些 库 提 
供 的 工具 来 表示 其 中 的 操作 时 ， 它 们 就 不 适用 了 。 在 这 种 情况 下 ， 可 利用 Python 旋 胶水 语言 的 

寺 点 ， 使 用 Cython 包 来 与 C 语言 交互 。 

































































使 用 Cython 获得 Ch4 吾 言 性 能 


























Cython 是 一 种 扩展 Python 的 语言 ， 这 是 通过 文 持 给 函数 、 变 量 和 类 声明 类 型 来 实现 的 。 这 
些 类 型 声明 让 Cython 能 够 将 Python 脚本 编译 成 高 效 的 C 语 言 代码 。Cython 还 可 充当 Python 和 C 
语言 之 间 的 桥 粱 ， 因 为 它 提 供 了 易于 使 用 的 结构 ， 让 你 能 够 编写 到 外 部 C 和 C++ 例 程 的 接口 。 


本 章 介 绍 如 下 主题 : 


口 Cython 的 基本 语法 ; 

口 如 何 编译 Cython 程序 ; 

口 如 何 使 用 静态 类 型 生成 快速 代码 ; 

口 如 何 使 用 类 型 化 ( typed ) 内 存 视图 高 效 地 操作 数组 ; 
口 优化 粒子 模拟 需 ; 

口 有 关 在 Jupyter notebook 中 使 用 Cython 的 提示 ; 

口 Cython 的 剖析 工具 。 


虽然 懂 点 C 语 言 会 有 所 帮助 ， 但 本 章 只 从 Python 优化 的 角度 介绍 Cython， 因 此 读者 不 需要 
具备 任何 C 语言 知识 。 






























































4.1 编译 Cython 扩展 


Cython 语法 被 设计 成 Python 语法 的 超 集 。 在 不 做 任何 修改 的 情况 下 ，Cython 就 能 够 编译 大 
部 分 Python 模块 ( 例外 的 情况 不 多 )。Cython 源 代码 文件 的 扩展 名 为 .pyx， 可 使 用 命令 cython 
编译 成 C 语言 文件 。 

这 里 要 介绍 的 第 一 个 Cython 脚本 包含 一 个 打印 Hello，Wworld! 的 简单 函数 。 

请 新 建 一 个 名 为 hello.pyx 的 文件 ， 并 在 其 中 输入 如 下 代码 。 


def hellol() : 
print ('Hello, World!') 


下 面 的 cython 命令 读 取 文件 hello.pyx， 并 生成 文件 hello.c。 
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$ cython hello.pyx 

为 将 hello.c 编译 成 Python 扩展 模块 , 我 们 将 使 用 编译 器 GCC。 我 们 需要 添加 一 些 Python 专 
用 的 编译 选项 ， 这 些 选 项 因 操 作 系统 而 异 。 必 须 指 定 包含 头 文件 的 目录 , 在 下 面 的 示例 中 ， 这 个 
目录 为 /usr/include/python3.5/。 














$ gcc -shared -pthread -fPIC -fwrapv -02 -Wall -fno-strict-aliasing -lm - 
I/usr/include/python3.5/ -o hello.so hello.c 


要 获悉 Python 的 包含 (include ) 目录 , 可 使 用 distutils 工具 sysconfig.get_ 
OD python_inc。 要 执行 这 个 工具 ， 只 需 执 行 命令 bython -c "from distutils 
import sysconfig; print(sysconfig.get_python_inc())" 即 可 。 





这 将 生成 一 个 名 为 hello.so 的 文件 ， 一 个 可 直接 在 Python 会 话 中 导入 的 C 语言 扩展 模块 。 


>>> import hello 
>>> hello.hello() 
Hello, World! 


Cython 支持 将 Python 2 和 Python 3 作为 输入 和 输出 语言 ， 换 而 言 之 ， 要 编译 Python 3 脚本 
文件 hello.pyx， 可 使 用 选项 -3。 








$ cython -3 hello.pyx 
对 于 生成 的 hello.c,， 无 须 做 任何 修改 就 可 将 其 编译 为 Python 2 或 Python 3 扩展 模块 , 为 此 只 
需 使 用 选项 -I 指定 相应 的 头 文件 即 可 ， 如 下 所 示 。 


$ gcc -I/usr/include/python3.5 # ... other options 
$ gcc -I/usr/include/python2.7 # ... other options 


distutils 是 标准 的 Python 打包 工具 ， 使 用 它 来 编译 Cython 程序 更 简单 。 通 过 编写 一 个 
setup.py 脚本 ， 就 可 将 .pyx 文件 直接 编译 成 扩展 模块 。 例 如 ， 要 编译 前 面 的 示例 文件 hello.pyx， 
可 编写 一 个 最 简单 的 setup.py 脚本 ， 它 包含 如 下 代码 。 












































from distutils.core import setup 
from Cython.Build import cythonize 


Setup ( 
name='Hello', 
ext_modules = cythonize('hello.pyx') 


) 

在 上 述 代 码 中 , 开头 两 行 导入 也 数 setup 和 辅助 函数 cythonize。 调用 也 数 setup 时 , 传 
和 人 了 几 个 键 - 值 对 ， 它 们 指定 了 应 用 程序 的 名 称 以 及 需要 创建 的 扩展 。 
辅助 函数 cythonize 接受 一 个 字符 串 或 字符 串 列 表 , 其 中 包含 要 编译 的 Cython 模块 。 你 也 
可 以 使 用 glob 模式 ， 如 下 面 的 代码 所 示 。 
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cythonize(['hello.pyx', 'world.pyx', '*.pyx']) 


要 使 用 aistutils 编译 前 述 扩展 模块 ， 可 使 用 下 面 的 代码 执行 脚本 setup.py。 




















$ python setup.py build ext --inplace 


选项 pui1lg_ext 让 脚本 setup.py 构建 ext_mogdules 中 指定 的 扩展 模块 ,而 选项 --inplace 
让 这 个 脚本 将 输出 文件 hello.so 放 在 源 文件 所 在 的 目录 ( 而 不 是 构建 目录 ) 中 。 


你 还 可 使 用 pyximport 来 自动 编译 Cython 模块 ， 为 此 只 需 在 脚本 开头 调用 pyximport . 
install() 即 可 (也 可 在 解释 器 中 执行 这 个 命令 )。 这 样 做 后 ， 你 就 可 直接 导入 .pyx 文件 ， 而 
pyximport 将 透明 地 编译 相应 的 Cython 模块 。 


















































>>> import pyximport 
>>> pyximport.install() 
>>> import hello # 这 将 编译 hello.pyx 


遗憾 的 是 ， 并 非 在 所 有 的 配置 下 pyximport 都 管用 ( 例如， 同时 涉及 C 和 Cython 文件 时 
就 不 管用 )， 但 对 测试 简单 脚本 而 言 ， 这 个 工具 很 方便 。 


从 0.13 版 起 ，IPython 就 包含 了 cythonmagic 扩展 ， 让 你 能 够 交互 地 编写 并 测试 一 系列 
Cython 语句 。 在 IPython shell 中 ， 可 使 用 1oaa_ext 来 加 载 扩 展 : 

















$load_ ext cythonmagic 


加 载 这 个 扩展 后 ,你 就 可 使 用 单元 格 魔法 命令 $$cython 来 编写 多 行 的 Cython 代码 片段 。 在 
下 面 的 示例 中 ， 我 们 定义 了 函数 hello_snippet ， 它 被 编译 并 加 入 到 IPython 会 话 命名 空间 中 。 

















$$%Scython 
def hello_snippet () : 
print ("Hello, Cython!") 


hello_snippet () 
Hello, Cython! 


4.2 ”添加 静态 类 型 


在 Python 中 ， 在 程序 执行 期 间 ， 变 量 可 关联 到 不 同类 型 的 对 象 。 这 很 好 ， 因 为 它 让 这 种 语 
言 灵活 而 动态 , 但 也 给 解释 器 带 来 了 很 大 的 负担 ,因为 解释 器 必须 在 运行 阶段 确定 变量 的 类 型 及 
其 包含 的 方法 ,这 让 很 多 优化 都 难以 进行 。Cython 扩展 了 Python 语言 ， 它 支持 显 式 的 类 型 声明 ， 
因此 能 够 通过 编译 生成 高 效 的 C 语言 扩展 。 


在 Cython 中 ， 声 明 数 据 类 型 的 主要 方式 是 使 用 caef 语句 。 在 多 种 情况 下 ， 都 可 使 用 关键 
字 cdef， 如 声明 变量 、 函 数 和 扩展 类 型 ( 静态 类 ) 时 。 
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4.2.1 变量 








在 Cython 中 ， 要 声明 变量 的 类 型 ， 可 在 变量 名 前 加 上 关键 字 cqef 和 类 型 。 例 如 ， 要 将 变 
量 i 声明 为 16 位 的 整数 ， 可 像 下 面 这 样 做 。 

cdef int i 

在 同一 条 cqaef 语句 中 ， 可 声明 多 个 变量 ， 还 可 对 变量 进行 初始 化 ( 这 是 可 选 的 )， 如 下 面 
的 代码 所 示 。 

Gadef “dubLle a HB a2 .0% GG, E30 

对 于 类 型 化 变量 ( typed variable )， 处 理 方式 与 常规 变量 不 同 。 在 Python 中 ， 变 量 通常 被 认 
为 是 指向 内 存 中 对 象 的 标签 ， 例 如 ， 可 在 程序 的 任何 地 方 将 值 ' nello' 赋 给 变量 a。 

a = 'hello' 

这 样 , 变量 a 将 包含 一 个 指向 字符 串 'hello' 的 引用 。 在 后 续 代码 中 , 还 可 随便 将 一 个 其 他 
的 值 (如 整数 1 ) 赋 给 这 个 变量 。 
























































攻克 

Python 将 把 整数 1 赋 给 变量 a， 这 不 会 有 任何 问题 。 

类 型 化 变量 的 行为 截然 不 同 ， 它 们 通常 被 认为 是 数据 容器 : 只 能 将 适合 的 值 存储 到 容器 中 ， 
而 是 否 适合 取决 于 容器 的 数据 类 型 。 例 如 ， 如 果 我 们 将 变量 a 声明 为 int 类 型 ， 并 试图 将 一 个 
double 值 赋 给 它 ，Cython 将 报错 ， 如 下 面 的 代码 所 示 。 





















































S$%$cython 
cdef int i 
0 


# 对 输出 做 了 删节 

.. .Cf4b.pyx:2:4 Cannot assign type 'double' to ‘'int' 

静态 类 型 让 编译 器 很 容易 执行 有 帮助 的 优化 。 例 如 ， 如 果 我 们 将 一 个 循环 索引 声明 为 int 
类 型 ，Cython 将 使 用 纯粹 的 C 代码 重 写 循环 ， 这 样 就 不 需要 依赖 于 Python 解释 器 。 类 型 声明 确 
保 这 个 索引 的 类 型 始终 为 int， 在 运行 期 间 也 不 会 改变 ,因此 编译 需 可 随便 进行 优化 ， 而 不 会 导 
致 程序 不 再 正确 。 


我 们 可 使 用 一 个 小 小 的 测试 用 例 来 评估 这 样 速度 将 提高 多 少 。 在 下 面 的 示例 中 , 我 们 实现 了 
一 个 简单 的 循环 ， 它 将 一 个 变量 递增 100 次 。 使 用 Cython 时 ， 这 个 函数 可 这 样 编写 : 


务 当 Cython 
def example() : 
cdef int i, j=0 
for i in range(100): 
可 才 呈 - 浊 
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return jJ 


example() 
# 结果 : 
# 100 


我 们 可 将 其 同一 个 类 似 的 纯粹 的 Python 循环 的 速度 进行 比较 。 


def example_python(): 
I=0 
for i in range(100): 
Jj 和 三 -= 北 
return jJ 


Stimeit example() 


10000000 loops, best of 3: 25 ns per loop 


Stimeit example_python() 


100000 loops, best of 3: 2.74 us per loop 


仅仅 通过 添加 类 型 声明 ， 速 度 就 提高 了 令 人 惊讶 的 100 倍 ! 之 所 以 会 这 样 ， 是 因为 Cython 
循环 首先 被 转换 为 纯粹 的 C 语言 代码 ， 再 被 转换 为 高 效 的 机 器 代码 ， 而 Python 循环 依赖 于 速度 























缓慢 的 解释 器 。 























在 Cython 中 ， 可 将 变量 声明 为 任何 标准 的 C 语言 类 型 ， 还 可 使 用 经 典 的 C 语言 结构 ( 如 
struct 、enum 和 typedef ) 来 定义 自 定 义 类 型 。 


一 个 有 趣 的 例子 是 , 如 果 我 们 将 变量 声明 为 object , 就 可 将 任何 类 型 的 Python 对 象 赋 给 它 。 








cdef object a_py 

# 'hello' 和 1 都 是 Python 对 象 
a_py = 'hello' 

a py = 1 





请 注意 ， 将 变量 的 类 型 声明 为 object 对 性 能 提升 没有 任何 好 处 ， 因 为 访问 和 操作 对 象 时 ， 





也 将 要 求解 释 器 确定 变量 的 类 型 及 其 包含 的 








属性 和 方法 。 





在 有 些 情况 下 ， 有 些 数据 类 型 (如 float 和 int ) 是 兼容 的 ， 因 此 可 在 它们 之 间 相 互 转换 。 


在 Cython 中 ， 要 进行 类 型 转换 〈 强制 转换 ) 
cdef int a = 0 


cdef double b 
b = <double> a 


4.2.2 ”函数 








， 可 在 尖 括 号 内 指定 目标 类 型 ， 如 下面 的 代码 所 示 。 





要 给 Python 函数 的 参数 添加 类 型 信息 ， 可 在 参数 名 前 面 指定 类 型 。 这 样 定义 的 函数 的 行 > 
与 常规 Python 函数 相同 ， 但 将 对 其 参数 执行 类 型 检查 。 我 们 可 编写 一 个 名 为 max_python 的 函 
数 ? 


它 返 回 两 个 整数 中 较 大 的 那个 。 
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def max_python(int a, int b) : 
return a if a > b else Pp 


对 于 这 样 定义 的 函数 ， 将 执行 类 型 检查 ， 并 将 其 参数 视 为 类 型 化 变量 ， 就 像 是 在 caef 语句 
中 定义 的 一 样 。 然 而 ， 这 样 的 函数 依然 是 Python 函数 ， 多 次 调用 时 依然 需要 切换 到 解释 器 。 要 
让 Cython 能 够 优化 函数 调用 ， 必 须 使 用 caef 语句 声明 函数 的 返回 类 型 。 














cdef int max_cython(int a, int pb): 
return a if a>b elseb 


这 样 声明 的 函数 将 被 转换 为 原生 C 语言 函数 ， 其 开销 比 Python 函数 低 得 多 。 一 个 重大 缺陷 
是 ,这 样 的 函数 不 能 在 Python 中 使 用 ,而 只 能 在 Cython 中 使 用 。 同 时 ,它们 的 作用 域 为 当前 Cython 
文件 一 一 除非 在 一 个 定义 文件 中 暴露 它们 (参见 后 面 的 4.3 节 )。 


所 幸 Cython 允许 你 定义 可 在 Python 中 调用 且 可 转换 为 高 性 能 C 语 言 函 数 的 函数 。 如 果 你 使 
用 cpdef 语句 定义 一 个 函数 ，Cython 将 生成 这 个 函数 的 两 个 版 本 : 可 供 解 释 器 使 用 的 Python 版 
本 ; 可 在 Cython 中 使 用 的 快速 的 C 语 言 函 数 。cpdef 语句 的 语法 与 cdef 语句 相同 ， 如 下 所 示 。 
































cpdef int max_hybrid(int a, int pb): 
return a if a>b elseb 

















在 有 些 情 况 下 ,即便 是 C 语 言 函数 , 调用 开销 从 性 能 上 说 也 是 个 问题 ,函数 在 关键 循环 中 被 
调用 很 多 次 时 尤其 如 此 。 在 函数 体 很 短 时 ， 最 好 在 函数 定义 前 加 上 关键 字 inline， 这 样 函 数 调 
用 将 被 替换 为 函数 体 本 身 。 前 述 返 回 最 大 值 的 函数 就 非常 适合 声明 为 内 联 的 。 


cdef inline int max_inline(int a, int pb): 
return a if a > b else b 
































4.2.3 类 


要 声明 扩展 类 型 ， 可 使 用 caef class 语句 ， 并 在 类 体 中 声明 属性 。 例 如 ， 我 们 可 创建 一 
个 名 为 Point 的 扩展 类 型 ， 它 存储 两 个 类 型 为 souble 的 坐标 (x, 力 ， 如 下 面 的 代码 所 示 。 














cdef class Point 
cdef double x 
cdef double y 
def __init_ _(self, double x, double y): 
self.x = x 
self.y =y 


在 类 方法 中 访问 声明 的 属性 时 ，Cython 将 绕 过 开销 很 大 的 属性 查找 ， 直 接 访问 底层 C 语言 
结构 体 中 的 指定 字段 。 有 鉴于 此 ,访问 类 型 化 类 的 属性 的 速度 极 快 。 

要 在 代码 中 使 用 caef class， 需 要 显 式 地 声明 要 在 编译 期 间 使 用 的 变量 的 类 型 。 在 任何 可 
使 用 标准 类 型 (如 aouple、float 和 int ) 的 地 方 ， 都 可 使 用 扩展 类 型 (如 Point )。 例 如 ， 
如 果 你 要 编写 一 个 Cython 函数 (在 下 面 的 示例 中 ， 这 个 函数 名 为 norm )， 它 计算 一 个 点 到 原点 
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的 距离 ， 就 必须 将 输入 变量 的 类 型 声明 为 Peint， 如 下 面 的 代码 所 示 。 





cdef double norm(Point p): 
rEUrn (DX**2.4 DiV**2)**0 .5 


与 类 型 化 函数 一 样 ， 类 型 化 类 也 有 一 些 限制 。 如 果 你 在 Python 中 试图 访问 扩展 类 型 的 属性 ， 
将 引发 AttributeError 异常 ， 如 下 所 示 。 














>>> a = Point (0.0, 0.0) 
> 局 
AttributeError: 'Point' object has no attribute 'x' 


要 在 Python 代码 中 访问 属性 , 必须 在 属性 声明 中 使 用 限定 符 public ( 可 读 写 ) 或 readonly， 
如 下 面 的 代码 所 示 。 


cdef class Point: 
cdef public double x 


另外 ， 要 声明 方法 ， 可 使 用 cpdef 语句 ， 就 像 声明 常规 函数 一 样 。 


对 于 扩展 类 型 ,不 能 在 运行 阶段 给 它 添加 额外 的 属性 。 要 这 样 做 ,一 种 解决 方案 是 从 类 型 化 
类 派生 出 一 个 Python 类 ， 并 使 用 纯粹 的 Python 来 扩展 其 属性 和 方法 。 









































4.3 ”共享 声明 
编写 Cython 模块 时 ， 你 可 能 想 重新 组 织 最 常用 的 函数 和 类 声明 ， 将 它们 放 在 一 个 独立 的 文 
件 中 , 以 便 在 不 同 的 模块 中 重用 。 在 Cython 中 , 可 将 这 些 声明 放 在 定义 文件 中 , 并 使 用 cimport 
语句 来 访问 它们 。 

假设 有 一 个 模块 ， 其 中 包含 函数 max 和 min， 而 我 们 想 在 多 个 Cython 程序 中 重用 它们 。 如 
果 在 一 个 .pyx 文件 中 编写 一 系列 函数 ， 这 些 声 明 将 只 能 在 该 文件 中 使 用 。 









































定义 文件 还 被 用 来 建立 Cython 到 外 部 C 语 言 代码 的 接口 ， 其 中 的 理念 是 将 类 型 
0 和 函数 原型 复制 (更 准确 地 说 是 转移 ) 到 定义 文件 中 , 并 将 实现 保留 在 将 单独 编 
译 和 链接 的 外 部 C 语 言 代 码 中 。 
为 共享 函数 max 和 min, 需要 编写 一 个 扩展 名 为 .pxd 的 定义 文件 。 这 种 文件 只 包含 要 与 其 他 
模块 共享 的 类 型 和 函数 原型 ， 即 相当 于 是 一 个 公有 接口 。 我 们 可 在 一 个 名 为 mathlib.pxd 的 文件 
中 声明 函数 max 和 min 的 原型 ， 如 下 所 示 。 





























cdef int max(int a, int b) 
cdef int min(int a, int b) 


如 你 所 见 ， 我 们 只 编写 了 函数 名 和 人 参数， 而 没有 实现 函数 体 。 
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函数 实现 将 放 在 实现 文件 中 ， 该 实现 文件 的 文件 名 与 定义 文件 相同 ,但 扩展 名 为 .pyx。 换 句 
话说 ， 这 个 实现 文件 名 为 mathlib.pyx。 


cdef int max(int a, int b): 
return a if a>b elseb 


cdef int min(int a, int b): 
return a if a < b else b 


现在 可 以 在 另 一 个 Cython 模块 中 导入 模块 mathlib 了 。 


为 测试 这 个 新 建 的 Cython 模块 ,我 们 将 创建 一 个 名 为 distance.pyx 的 文件 ， 其 中 包含 一 个 名 
为 chepyshev 的 函数 。 这 个 函数 计算 两 个 点 之 间 的 切 比 雪夫 距离 ， 如 下 面 的 代码 所 示 。 两 组 坐 
标 (x1，y1) 和 (x2，y2) 之 间 的 切 比 雪夫 距离 指 的 是 对 应 坐标 的 最 大 差 值 。 




















max(abs (xl] - x2), abs (yl - y2)) 


我 们 将 使 用 cimport 导入 mathlib.pxd 中 声明 的 函数 max， 以 便 使 用 它 来 实现 函数 
chebyshev， 如 下 面 的 代码 所 示 。 





from mathlib cimport max 


def chebyshev (int xl1l, int yl, int x2, int y2): 
return max(abs (xl - x2), absl(yl - y2)) 


其 中 的 cimport 语句 将 读 取 mathlib.pxd, 而 生成 文件 distance.c 时 , 将 用 到 函数 max 的 定义 。 


4.4 使 用 数组 


高 性 能 数值 计算 常常 要 用 到 数组 。Cython 提供 了 一 种 与 数组 交互 的 简单 方式 : 直接 使 用 低级 
C 语言 数组 或 更 通用 的 类 型 化 内 存 视 图 。 





4.4.1 C 语言 数组 和 指针 


C 语言 数组 是 一 系列 类 型 相同 的 元 素 ， 这 些 元 素 在 内 存 中 存储 在 一 起 。 深 入 其 中 的 细节 前 ， 
弄 明 白 (或 复习 一 下 ) C 语言 是 如 何 管理 内 存 的 将 大 有 神 益 。 


在 C 语 言 中 ， 变 量 犹如 容器 。 当 你 创建 变量 时 ， 将 在 内 存 中 预 留 空间 ， 用 于 存储 变量 的 值 。 
例如 , 如果 你 创建 一 个 用 于 存储 64 位 浮 点 数 ( 即 类 型 为 aouble ) 的 变量 , 程序 将 分 配 64 位 ( 即 
16 字 节 ) 内 存 。 这 部 分 内 存 可 通过 指向 它 的 地 址 来 访问 。 


要 获取 变量 的 地 址 ， 可 使 用 地 址 运算 符 (符号 & )。 要 打印 变量 的 地 址 ， 可 使 用 Cython 模块 
libc.stdio 中 的 函数 printf， 如 下 所 示 。 
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如 下 


明 一 


$$%Scython 

cdef double a 

from libc.stdio cimport printf 
printf("%$p", &a) 

# 输出 : 

# Ox7fc8bb611210 


内 存 地 址 可 存储 在 被 称 为 指针 的 特殊 变量 中 ， 而 要 声明 指针 ， 可 在 变量 名 前 面 加 上 前 级 *， 
所 示 。 














from libc.stdio cimport printf 

cdef double a 

cdef double *a pointer 

a_pointer = &a # a_pointer 和 &a 的 类 型 相同 


要 获取 指针 指向 的 地 址 中 存储 的 值 ， 可 使 用 解除 引用 运算 符 (符号 * ), 请 注意 ,在 这 种 情况 
* 的 含义 与 变量 声明 中 的 * 不 同 。 
cdef double a 


cdef double *a pointer 
a_pointer = &a 


S30 
print (*a_pointer) # 打印 3.0 


当 你 声明 C 语言 数组 时 , 程序 将 分 配 足 够 的 空间 ,以便 存 储 指 定数 量 的 元 素 。 例如 ， 当 你 声 
个 包含 10 个 元 素 的 aouble 数组 ( 每 个 元 素 需 要 16 字 节 ) 时 ,程序 将 在 内 存 中 预 留 160 





(16x10) 字 节 的 连续 空间 。 在 Cython 中 ， 要 声明 这 样 的 数组 ， 可 使 用 下 面 的 语法 。 


数组 


cdef double arr[10] 
你 还 可 声明 多 维 数 组 ， 如 5 行 2 列 的 数组 。 为 此 可 使 用 如 下 语法 : 
cdef double arr[5] [2] 


这 将 分 配 一 块 连续 的 内 存 , 一 行 接 一 行 。 这 种 顺序 被 称 为 行 主 序 (row-major ), 如 下 图 所 示 。 
也 可 能 是 列 主 序 ( column-major ) 的 ， 在 编程 语言 FORTRAN 中 就 是 这 样 的 。 





图 图 


在 内 存 中 的 排列 情况 


一 一 加 到 辆 区 属国 司 恒 | 辐 辆 


图 图 图 图 
回 图 图 图 
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数组 元 素 的 排列 顺序 有 重要 影响 。 在 最 后 一 维 上 迭代 C 语言 数组 时 ,访问 的 是 
连续 的 内 存 块 (在 前 面 的 示例 中 ,将 依次 访问 0、1、2、3 等 ), 而 在 第 一 维 上 迭 
63 代 时 ， 每 次 都 将 跳 过 一 些 位 置 (在 前 面 的 示例 中 ， 将 依次 访问 0、2、4、6、8、 
1 等 )。 在 任何 情况 下 ， 都 应 尽 可 能 依次 访问 内 存 ， 因 为 这 样 可 优化 缓存 和 内 存 
使 用 情况 。 
要 获取 或 修改 数组 元 素 ， 可 使 用 标准 索引 ; C 语言 数组 不 支持 花 式 索引 和 切片 。 


dbOd -et0 


C 语 言 数组 的 有 些 行为 与 指针 相同 。 实际 上 , 变量 arr 指向 的 是 相应 数组 的 第 一 个 元 素 所 在 
的 内 存单 元 。 为 验证 数组 的 第 一 个 元 素 的 地 址 与 变量 arr 包含 的 地 址 相同 ， 可 使 用 地 址 运算 符 ， 
如 下 所 示 。 




















S$%Scython 
from libc.stdio cimport printf 


cdef double arr[10] 
BELTNEE (Sn aE) 


printf("%pn", &arr[0]) 





# 输出 : 
# Ox7ff6de204220 
# Ox7ff6de204220 


需要 建立 到 既 有 C 语言 库 的 接口 或 需要 细致 地 控制 内 存 时 ， 应 使 用 C 语言 数组 和 指针 ， 而 
且 它 们 的 性 能 都 非常 高 。 但 这 样 细致 的 控制 也 容易 出 错 , 因为 它 无 法 防止 你 访问 错误 的 内 存单 元 。 
对 于 更 常见 的 用 例 ， 为 提高 安全 性 ， 可 使 用 NumPy 数组 或 类 型 化 内 存 视 图 。 

















4.4.2 NumPy 数组 


在 Cython 中 ， 可 将 NumPy 数组 作为 常规 Python 对 象 使 用 ， 以 利用 它们 经 过 优化 的 广播 操 
作 。 然 而 ，Cython 提供 了 一 个 名 为 numpy 的 模块 ， 这 个 模块 提供 了 更 强 的 直接 人 迭代 支持 。 


当 你 以 常规 方式 访问 NumPy 数组 的 元 素 时 ， 在 解释 器 层面 将 执行 其 他 一 些 操 作 ， 这 将 带 来 
很 大 的 开销 。Cython 可 避 开 这 些 操作 和 检查 ， 直 接 操作 NumPy 数组 使 用 的 内 存 区 域 ， 从 而 极 大 
地 改善 性 能 。 

要 声明 NumPy 数组 ， 可 使 用 数据 类 型 ndaarray， 而 要 在 代码 中 使 用 这 种 数据 类 型 ， 必 须 先 
使 用 cimport 导入 Cython 模块 numpy ( 它 不 同 于 Python 模块 numpy )。 我 们 将 把 这 个 模块 绑 定 
到 变量 -_np， 以 便 将 其 与 Python 模块 numpy 区 分 开 来 。 


cimport numpy as Cc_np 
import numpy as np 


现在 可 以 声明 NumPy 数组 了 。 方 法 是 在 方 括号 内 指定 类 型 和 维 数 ， 这 被 称 为 缓冲 区 语法 
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( buffer syntax )。 要 声明 一 个 二 维 的 aouple 数组 ， 可 使 用 如 下 代码 : 
cdef c np.ndarray[double, ndim=2] arr 
访问 这 个 数组 时 ， 将 直接 操作 底层 的 内 存 区 域 ， 从 而 极 大 地 提升 速度 。 


在 下 面 的 示例 中 ， 我 们 将 演示 如 何 使 用 类 型 化 numpy 数组 ， 并 将 其 与 常规 Python 版 本 进行 
比较 。 


我 们 首先 编写 函数 numpy_bench_py, 它 将 py_arr 的 每 个 元 素 都 加 1。 我 们 将 索引 i 的 类 
型 声明 为 int， 以 消除 for 循环 的 开销 。 


























$$%Scython 
import numpy as np 
def numpy_bench py(): 
py_arr = np.random.rand(1000) 
(elo l= 0 ou 
for i in range(1000): 
Dy ar¥ 人 [dj] 3 生 


接 下 来 ， 我们 使 用 类 型 ndarray 编写 同样 的 函数 。 请 注意 , 使 用 c_np .ngdarray 声明 变量 
c_arr 后 ， 就 可 将 一 个 使 用 Python 模块 numpy 创建 的 数组 赋 给 它 。 


























$$%Scython 
import numpy as np 
cimport numpy as c_np 


def numpy_bench c(): 
cdef c np.ndarray[double, ndim=1] c_arr 
Carr. sD.randon ranid(L1000) 
cdef int i 


for i in range(1000): 
人 本 下 生起 
现在 可 以 使 用 timeit 测量 这 两 个 函数 的 执行 时 间 了 。 从 测量 结果 可 知 , 类 型 化 版 本 的 速度 
快 了 50 售 。 
stimeit numpy_bench c() 
100000 loops, best of 3: 11.5 us per loop 


Stimeit numpy_bench py () 
1000 loops, best of 3: 603 us per loop 


4.4.3 ”类 型 化 内 存 视图 


C 数 组 和 NumPy 数组 与 内 置 对 象 bytes、bytearray 和 array .array 很 像 ， 因 为 它们 都 
在 连续 的 内 存 区 域 ( 也 叫 内 存 缓冲 区 ) 上 操作 。 Cython 提供 了 一 个 通用 接口 一 一 类 型 化 内 存 视图 ， 
该 接口 统一 并 简化 了 对 所 有 这 些 数据 类 型 的 访问 。 
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内 存 视图 是 一 个 对 象 , 维护 着 一 个 指向 特定 内 存 区 域 的 引用 。 该 内 存 区 域 实际 上 并 不 归 内 存 
视图 所 有 , 但 内 存 视图 能 够 读 取 和 修改 其 内 容 ; 换 而 言 之 , 内 存 视图 是 一 个 有 关 底 层 数据 的 视图 。 
要 定义 内 存 视 图 ,可 使 用 一 种 特殊 语法 。 例如， 要 定义 一 个 int 内 存 视图 和 一 个 二 维 的 double 
内 存 视 图 ， 可 像 下 面 这 样 做 。 


cdef int[:] a 
cdef double[:, :] b 


这 种 语法 也 可 用 于 声明 任何 类 型 的 变量 和 类 属性 , 还 可 用 于 函数 定义 中 。 任何 暴露 了 缓冲 区 
接口 的 对 象 (如 NumPy 数组 、 pytes 和 array .array ) 都 将 自动 绑 定 到 内 存 视图 。 例 如 ,可 使 
用 简单 的 变量 赋值 将 一 个 NumPy 数组 绑 定 到 内 存 视图 。 


























import numpy as np 


cdef int[:] arr 
arr_np = np.zeros (10, dtype='int32') 
arr = arr_np # 将 数组 绑 定 到 内 存 视 图 


必须 指出 的 是 , 内 存 视图 并 不 拥有 与 之 绑 定 的 数据 , 而 只 是 提供 了 一 种 访问 和 修改 它们 的 途 
径 。 在 这 个 示例 中 ， 数 据 归 NumPy 数组 所 有 。 从 下 面 的 示例 可 知 ， 通 过 内 存 视图 修改 数据 时 ， 
操作 的 是 底层 的 内 存 区 域 ， 因 此 这 种 修改 将 在 原始 NumPy 数组 中 反映 出 来 反之 亦 然 )。 





























arr[2] = 1 # 修改 内 存 视图 
piEint (arre nD) 
# [0010000000] 


从 某 种 意义 上 说 ， 内 存 视图 的 效果 类 似 于 对 NumPy 数组 执行 切片 操作 。 第 3 章 介绍 过 ， 对 
NumPy 数组 执行 切片 操作 时 ， 不 会 复制 数据 ， 而 是 返回 一 个 指向 相应 内 存 区 域 的 视图 ， 而 对 该 
视图 所 做 的 修改 将 在 原始 数组 中 反映 出 来 。 


对 于 内 存 视 图 ， 也 可 使 用 标准 的 NumPy 语法 来 执行 切片 操作 。 








cdef int[:, :, :] a 
arr[0，:，:] # 一 个 二 维 的 内 存 视图 
arr[0，0，:] # 一 个 一 维 的 内 存 视 图 
artr[0，0，0] # 一 个 int 值 


要 在 内 存 视 图 之 间 复 制 数 据 ， 可 使 用 类 似 于 切片 赋值 的 语法 ， 如 下 面 的 代码 所 示 。 


import numpy as np 








cdef double[:, :] pb 

cdef double[:] r 

b= np. tandonm. rand(L0y 3) 

r = np.zZeros(3, dtype='float64') 


b[0，:] = 工 # 将 r 的 值 复制 到 b 的 第 1 行 中 
在 下 一 节 中 ,我 们 将 在 粒子 模拟 器 中 使 用 类 型 化 内 存 视图 来 声明 数组 的 类 型 。 
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4.5 使 用 Cython 编写 粒子 模拟 器 


对 Cython 的 工作 原理 有 大 致 了 解 后 ， 便 可 重 写 方法 ParticleSimulator.evolve 了 。 多 


亏 了 Cython， 我 们 能 够 将 这 些 循环 转换 为 C 语 言 的 ， 从 而 消除 Python 解释 器 带 来 的 开销 。 





在 第 3 章 , 我 们 使 用 NumpPy 编写 了 方法 evolve, 其 效率 相当 高 。 我 们 将 这 个 旧版 本 重 命名 





为 evolve_numpy， 以 便 与 新 版 本 区 分 开 来 。 


基于 索引 的 算法 ， 以 利用 快速 的 索引 操作 。Cython 生成 的 是 高 效 的 C 语言 代码 ， 因 此 我 们 想 使 
用 多 少 循环 就 可 使 用 多 少 ， 而 不 会 对 性 能 有 任何 影响 。 





的 Cython 模块 中 。 这 个 模块 只 包含 一 个 Python 函数 


def evolve numpy (self, dt): 
timestep = 0.00001 
nsteps = int (dt/timestep) 


re mp -array(l [lp By ) 
ang_speed i = np.array ([p.ang_speed for p in self.particles]) 


Vv_i = np.empty_like(r_i) 


for i in range (nsteps) : 


norm i = TD.Sqrt((E 1 ** 2) .Sum(axis=1)) 

Ve SEO] 

wT 0 

Vv_i /= norm i[:, np.newaxis] 

Qi = timestep * ang_speedq_ i[:, np.newaxis] * v_i 


pi 


for i, p in enumerate(self.particles): 
p.x, p.y = r_il[il] 


我 们 要 将 这 些 代码 转换 为 Cython 的 。 我 们 将 消除 NumPy 数组 广播 , 将 这 个 方法 转换 为 一 个 














作为 一 种 设计 选择 ,我 们 在 一 个 函数 中 重 写 循环 ,并 将 这 个 水 数 放 在 一 个 名 为 cevolve .pyx 
c_evolve， 而 这 个 因数 将 粒子 位 置 、 








角速度 、 步 长 和 步 数 作为 参数 。 











一 开始 , 我 们 不 添加 类 型 信息 , 而 只 将 这 个 函数 隔离 , 并 确保 编译 其 所 在 的 模块 时 不 会 出 错 。 











# 文件 : simul .py 

def evolve _ cython(self, dt): 
timestep = 0.00001 
nsteps = int (dt/timestep) 


rr i = np.array ([[p.x, p.y] for p in self.particles]) 
ang_speeqd i = np.array ([p.ang_speed for p in self.particles]) 


c_evolvel(r_i, ang_speed i, timestep, nsteps) 


45 使 用 Cython 编写 粒子 模拟 器 。 73 





for i, p in enumerate(self.particles): 
p.x, p.y = r_i[i] 


# 文件 : cevolve.pyx 
import numpy as np 


def c_evolvel(r_i, ang_speed i, timestep, nsteps): 
Vv_i = np.empty_like(r_i) 


for i In range (nsteps): 


norm i = np.sgqrt ((r_i ** 2) .sum(axis=1)) 

We ty TEL 0] 

入 二 下 三 

Vv_i /= norm i[:, np.newaxis] 

Qi = timestep * ang_speed i[:, np.newaxis] * Vi 


r_i += d_i 


请 注意 ,的 数 c_evolve 无 须 返 回 值 ， 因 为 它 就 地 修改 了 数组 xr_i 中 的 值 。 为 对 NumPy 版 
本 和 未 指定 类 型 信息 的 Cython 版 本 进行 基准 测试 , 可 稍微 修改 一 下 函数 benchmark, 如 下 所 示 。 
def benchmark (npart=100, method='python' 


) 
particles = [Particle(uniform(-1.0, 1 
UnifoEn(1:0;, 1 

. 

( 





;0 

.0) 
Uniform( .0 1...0) 
for i in range (npart)] 
simulator = ParticleSimulator (particles) 


if method=='python': 
simulator.evolve_python(0.1) 


elif method == 'cython': 
simulator.evolve_cython(0.1) 
elif method == 'numpy': 


simulator.evolve_ numpy (0.1) 
现在 可 以 在 IPython shell 中 测量 不 同 版 本 的 执行 时 间 了 。 


stimeit benchmark (100, 'cython') 
1 loops, best of 3: 401 ms per loop 
stimeit benchmark (100, 'numpy') 
1 loops, best of 3: 413 ms per loop 


这 两 个 版 本 的 速度 相同 ， 这 表明 相 比 于 纯粹 的 Python 代码 ， 编 译 没有 指定 静态 类 型 信息 的 
Cython 模块 没有 任何 优势 可 言 。 接 下 来 ， 对 于 所 有 重要 的 变量 ， 我 们 都 声明 其 类 型 ， 让 Cython 
能 够 进行 优化 。 


首先 ,我 们 给 函数 参数 声明 类 型 ， 看 看 性 能 有 何 变化 。 对 于 数组 参数 ,我们 将 其 类 型 声明 为 
包含 souble 值 的 内 存 视图 。 需 要 指出 的 是 ， 如 果 我 们 在 调用 这 个 函数 时 传人 int 或 float32 
数组 ， 将 不 会 自动 进行 类 型 转换 ， 因 此 将 出 错 。 
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def c_evolve(dqouple[:，:] r_i, 
double[:] ang_speed i, 
double timestep, 
int nsteps): 


现在 可 以 重 写 分 多 步 处理 粒 子 的 循环 了 。 在 这 个 循环 中 ,我 们 可 将 迭代 索引 工 和 j 以 及 表示 
粒子 数量 的 nparticles 都 声明 为 int 类 型 。 


Caef Nit ;可 
cdef int nparticles = 上 _ 1.shape[0] 


这 里 使 用 的 算法 与 纯粹 的 Python 版 很 像 : 分 多 步 迭代 粒子 ， 并 计算 每 个 粒子 坐标 的 速度 和 
位 移 向 量 ， 如 下 面 的 代码 所 示 。 








for i in range(nsteps): 
for j in range(nparticles): 
>. 
y = r_i[j, 1] 
ang_speed = ang_speed_i[j] 


ner sr SLE(R 尖刀 


Vx = {(-y) /norm 

Vy LNnOEm 

dx = timestep * ang_speed * vx 
dy = timestep * ang_speed * vy 
2 0] += dx 

a 1] += dy 





在 上 述 代 码 中 ， 我 们 添加 了 变量 x、y、ang_speed、norm、vx、vy、dx 和 dy。 为 避免 使 
用 Python 解释 顺带 来 的 开销 ， 我 们 必须 在 函数 开头 声明 这 些 变量 的 类 型 ， 如 下 所 示 。 








cdef double norm, x, y, vx, vy, dx, dy, ang_speed 


我 们 还 使 用 了 一 个 名 为 sqrt 的 函数 来 计算 norm。 如 果 使 用 模块 math 或 numpy 中 的 sqrt， 
这 个 重要 的 循环 将 包含 一 个 速度 很 慢 的 Python 函数 ， 进 而 影响 代码 的 性 能 。 在 标准 C 语言 库 中 ， 
有 一 个 速度 很 快 的 sqrt 函数 ， 它 被 封装 在 Cython 模块 1ibc .math 中 。 














from libc.math cimport sqrt 
现在 可 再 次 运行 基准 测试 程序 ， 看 看 性 能 改善 情况 了 ， 如 下 所 示 。 


In [4]: Stimeit benchmark (100, 'cython') 
100 loops, best of 3: 13.4 ms per loop 
In [5]: Stimeit benchmark (100, 'numpy') 
1 loops, best of 3: 429 ms per loop 


在 粒子 数量 很 少 的 情况 下 ， 速 度 得 到 了 极 大 的 提升 ， 达 到 了 以 前 版 本 的 40 倍 。 然 而 ， 我 们 
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还 应 测试 粒子 数量 更 多 时 的 性 能 情况 。 


In [2]: Stimeit benchmark(1000, 'cython') 
10 loops, best of 3: 134 ms per loop 
In [3]: Stimeit benchmark (1000, 'numpy' ) 
1 loops, best of 3: 877 ms per loop 


随 着 粒子 数量 的 增加 ， 两 个 版 本 的 速度 更 为 接近 。 将 粒子 数量 增加 到 1000 个 后 ， 性 能 提升 














降低 到 了 6 倍 。 这 可 能 是 因为 随 着 粒子 数量 的 增加 , Python for 循环 的 开销 相 比 于 其 他 操作 的 开 


销 越 来 越 小 。 


4.6 剖析 Cython 代码 





Cython 提供 了 一 种 名 为 注释 视图 ( annotated view ) 的 功能 ， 让 我 们 能 够 获悉 哪些 代码 行 是 
在 Python 解释 器 中 执行 的 ， 以 及 哪些 代码 行 存在 很 大 的 优化 空间 。 要 启用 这 种 功能 ， 可 在 编译 






































Cython 文件 时 指定 选项 -a， 这 样 Cython 将 生成 一 个 HTML 文件 ， 其 中 包含 Cython 代码 以 及 一 
些 很 有 用 的 注释 信息 。 选 项 -a 的 用 法 如 下 : 


$ cython -a cevolve.pyx 
$ firefox cevolve.html 


生成 的 HTML 文件 如 下 面 的 





恒 幕 截图 所 示 ， 它 逐 行 地 显示 了 Cython 文件 的 内 容 。 





yenerated or it 
Raw output: cevolve.c 
+01: import numpy as np 


02: cimport cython 
93: from Libc.math cimport sqrt 


#ifdef WITH THREAD 
#endif 


#ifdef WITH_THREAD 


04: 
+65: def ¢ evolve(double[:, :] r i,double[:] ang speed i, 
96: double timestep,int nsteps) : 

97: cdef int i 

98: cdef int j 
+09: cdef int nparticles = r_ i.shape[9] 

19: cdef double norm, x, y, vx, vy, dx, dy, ang_speed 
11: 

12: 
+13: for i in range(nsteps): 
+14: for j in range(nparticles): 
+15: x= ri[lj, 9] 
+16: y= ri[lj, 1] 
+17: ang_speed = ang_ speed i[j] 

18: 
+19: norm = sqrt(x *+ 2 + y +** 2) 

29: 
+21: vx = (-y)/norm 
+22: Vy = x/norm 


if (unlikely(_ pyx v_norm == 9)) { 
PyGILState STATE pyx gilstate save = PyGILState Ensure(); 
PyErr SetString(PyExc ZeroDivisionError, "float division"); 


PyGILState Release( pyx gilstate save); 








#endif 

pyx Vv vy = (_ pyx Vv x / _ pyx v_norm); 
23: 
+24: dx = timestep + ang speed * vx 
+25: dy = timestep + ang speed * vy 
26: 
+27: rilj, 0] += dx 
+28: rilj, 1] += dy 
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每 行 源 代码 都 可 能 带 有 深度 不 同 的 黄色 背景 。 背景 色 越 深 , 表明 代码 与 解释 器 调用 的 相关 程 
度 越 高 ; 而 背景 色 为 白色 的 代码 将 被 转换 为 常规 C 语 言 代 码 。 由 于 解释 器 调用 会 极 大 地 降低 执行 
速度 ,因此 我 们 的 目标 是 让 函数 体内 代码 的 背景 色 尽 可 能 浅 。 对 于 任何 代码 行 ,都 可 通过 单 击 它 
来 查看 Cython 编译 器 生成 的 代码 。 例 如 ， 代 码 行 v_y = x/norm 核实 norm 不 为 0， 如 果 这 个 条 
件 不 满足 ， 将 引发 ZeroDivisionError 异常 。 对 于 代码 行 XS Os Cython 将 检查 这 
些 索引 是 否 在 数组 的 范围 内 。 你 可 能 注意 到 了 ， 最 后 一 行 的 背景 色 很 深 ， 但 通过 查看 代码 可 知 ， 
这 实际 上 是 个 误会 : 这 行 代码 对 应 的 是 与 函数 末尾 相关 的 模板 代码 。 
Cython 可 禁用 检查 ( 如 检查 除数 是 否 为 零 )， 从 而 删除 这 些 与 解释 器 相关 的 调用 。 这 通 稼 是 
通过 编译 需 指 令 实现 的 。 添 加 编译 需 指 令 的 方式 有 多 种 : 
口 使 用 装饰 器 或 上 下 文 管理 器 ; 
口 在 文件 开头 使 用 注释 ; 
口 使 用 Cython 命令 行 选项 。 











































































































完整 的 Cython 编译 器 指令 清单 ,请 参阅 官方 文档 ,其 网 址 为 http://docs.cython.org/ 
src/reference/compilation.html#compiler-directives。 
例如 ， 要 禁用 数组 边界 检查 ， 只 需 像 下 面 这 样 使 用 cython .boundscheck 对 函数 进行 装饰 
即 可 。 
cimport cython 


@cython.boundscheck (False) 
def myfunction() : 


# 函数 的 代码 
也 可 像 下 面 这 样 使 用 cython .boundscheck 将 代码 块 封装 在 上 下 文 管理 器 中 : 








with cython.boundscheck (False): 
# 代码 块 


要 在 整个 模块 中 禁用 边界 检查 ， 可 在 文件 开头 添加 如 下 代码 行 : 





# cython: boundscheck=False 
要 使 用 命令 行 选项 修改 编译 器 指令 ， 可 像 下 面 这 样 使 用 选项 -x: 
$ cython -X boundscheck=True 


要 在 函数 c_evolve 中 禁用 额外 的 检查 , 可 禁用 编译 需 指令 poundscheck 并 启用 编译 吉 指 
令 cdivision (这 样 将 不 检查 ZeroDivisionError )， 如 下 面 的 代码 所 示 。 


























cimport cython 


@cython.boundscheck (False) 
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G@cython.cdqivision(True) 

def c_evolve(double[:, :] r_i, 
double[:] ang_speed i, 
double timestep, 
int nsteps): 


这 样 做 后 , 如 果 再 次 查看 注释 视图 , 将 发 现 整个 循环 体 的 背景 都 是 白色 了 一 一 解释 器 已 不 再 
涉足 内 部 循环 。 要 重新 编译 这 些 代码 ， 只 需 再 次 执行 命令 python setup.py build_ext 
--inplace 即 可 。 但 再 次 运行 基准 测试 程序 后 ， 我 们 发 现 性 能 并 没有 得 到 改善 ， 这 表明 这 些 检 
查 并 非 瓶 颈 的 一 部 分 。 


In [3]: Stimeit benchmark(100，'cython ' ) 
100 loops, best of 3: 13.4 ms per loop 


另 一 种 剖析 Cython 代码 的 方式 是 使 用 模块 cProfile。 例 如 ， 我 们 可 以 编写 一 个 简单 的 
函数 ， 它 计算 两 个 坐标 数组 之 间 的 切 比 雪夫 距离 。 为 此 ， 请 创建 一 个 名 为 cheb.py 的 文件 ， 如 下 
所 示 。 















































import numpy as np 
from distance import chebyshev 


def penchmark () : 
a = np.random.rand(100, 2) 
b = np.random.rand(100, 2) 
Eo 区 工交 二 定 基 站 
for XK2, 2 Tn. bb: 
chepbyshev (xl1, x2, yl, y2) 


如 果 对 这 个 脚本 进行 剖析 ， 将 得 不 到 有 关 前 面 使 用 Cython 实现 的 函数 的 统计 信息 。 要 收集 
有 关子 数 max 和 min 的 剖析 信息 ,需要 在 文件 mathlib.pyx 开头 添加 选项 brofile=True， 如 下 
面 的 代码 所 示 。 


# cython: profile=True 


cdef int max(int a, int b): 


# 其 他 代码 
现在 可 以 在 IPython 中 使 用 sprun 来 剖析 这 个 脚本 了 ， 如 下 所 示 。 


import cheb 
Sprun cheb.benchmark () 


# 输出 : 
2000005 function calls in 2.066 seconds 


Ordered by: internal time 

ncalls tottime percall cumtime percall filename:lineno(function) 
1 1.664 1.664 2.066 2.066 cheb.py:4(benchmark) 

1000000 0.351 0.000 0.401 0.000 {distance.chebyshev} 

1000000 0.050 0.000 0.050 0.000 mathlib.pyx:2 (max) 
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2 0.000 0.000 0.000 0.000 {method 'rand' of 
'mtrand.RandomState' objects} 


1 0.000 0.000 2.066 2.066 <string>:1(<module>) 
1 0.000 0.000 0.000 0.000 {method 'disable' of 


'_lsprof.Profiler' objects} 

上 述 输出 包含 有 关 函 数 max 的 信息 ， 这 些 信 息 表 明 这 个 函数 并 非 瓶 陈 。 大 部 分 时 间 都 花 在 
困 数 benchmark 上 ， 这 意味 着 瓶颈 很 可 能 是 纯粹 的 Python for 循环 。 就 这 个 示例 而 言 ， 最 佳 策 
略 是 使 用 NumPy 重 写 这 个 循环 ， 或 者 将 代码 移植 到 Cython。 




















4.7 在 Jupyter 中 使 用 Cython 


要 优化 Cython 代码 ， 必 须 反复 尝试 。 所 幸 通 过 Jupyter notebook 可 方便 地 访问 Cython 工具 ， 
这 提供 了 更 便利 、 更 和 谐 的 优化 体验 。 























要 启动 notebook 会 话 ， 可 在 命令 行 中 执行 命令 jupyter notebook; 要 加 载 Cython 魔法 命 
令 ， 可 在 单元 格 中 输入 sloadq_ext cythono 





前 面 说 过 ， 要 在 当前 会 话 中 编译 并 加 载 Cython 代码 ， 可 使 用 魔法 命令 ss%scython。 例如 ， 要 
在 单元 格 中 复制 cheb.py 的 内 容 ， 可 像 下 面 这 样 做 。 














$$%Scython 
import numpy as np 


cdef int max(int a, int b): 
return a if a >b else b 


cdef int chebyshev (int x1, int yl, int x2, int y2): 
return max(abs (xl] - x2), abs(yl - y2)) 


def c_ benchmark () : 
a np.random.rand(1000, 2) 
b np.random.rand(1000, 2) 


lh jt 


for xl1, yl in a: 
fOr X22 "V2 LN. ls 
chebyshev (xl, x2, yl, y2) 























魔法 命令 sscython 提供 了 很 有 用 的 选项 -a, 让 你 能 够 在 notebook 中 直接 编译 代码 并 生成 其 
注释 视图 ( 就 像 命令 行 选项 -a 一 样 )， 如 下 面 的 屏幕 截图 所 示 。 
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In [15]: %%cython -al 
import numpy as np 


cdef int max(int a, int b): 
return a ifa>b elseb 


cdef int chebyshev(int x1, int yl, int x2, int y2): 
return max(abs(x1 - x2), abs(yl - y2)) 


def c benchmark(): 
a = np.random. rand(10690, 2) 
b = np.random.rand(1999，2) 


for x1, yl in a: 
for x2, y2 in b: 
chebyshev(x1, x2, yl, y2) 


out[15] : 
Generated by Cython 0.25.2 


Yellow lines hint at Python interaction. 

Click on a line that starts with a "+" to see the C code that Cython generated for it. 
91: # cython: profile=True 

+02: import numpy as np 





93: 

+94: cdef int max(int a, int b): 

+05: return a if a > b eLse b 

966: 

+07: cdef int chebyshev(int x1, int yl, int x2, int y2) : 
+08: return max(abs(xl - x2), abs(yl - y2)) 
99: 

+19: def c_benchmark() : 

+11: a=np.random.rand(1999，2) 

+12: b = np.random.rand(1999，2) 

13: 

+14: for x1, yl in a: 

+15: for x2, y2 in b: 

+16: chebyshev(x1, x2, yl, y2) 

















这 让 你 能 够 快速 测试 代码 的 不 同 版 本 以 及 使 用 Jupyter 中 的 其 他 集成 工具 。 例 如 ， 要 在 当前 
会 话 中 测量 代码 的 执行 时 间 和 剂 析 代 码 , 可 分 别 使 用 工具 $timeit 和 %prun( 条件 是 在 单元 格 中 
启用 了 编译 器 指令 profile )。 下 面 的 屏幕 截图 演示 了 如 何 使 用 魔法 命令 sprun 来 查看 剖析 结果 。 

















In [22]: %prun c_benchmark() 


2660665 function calls in 1.379 seconds 
Ordered by: internal time 


ncalls tottime percall cumtime percall filename:lineno(function) 

1 1.127 1.127 1.379 1.376 _cython_magic_c7d6eab16ab5658137c9af8534d5cafb.pyx:16(c_benchma 

rk) 

1909660 0.191 9.969 0.243 9.600 cython magic c7d6eab1l6ab5658137c9af8534d5cafb.pyx:7(chebyshev) 
1909669 9.952 9.969 9.952 9.999 cython magic c7d6eabl6ab5658137c9af8534d5cafb.pyx:4(max) 

> 6.969 9.969 1.370 1.376 <string>:1(<module>) 

1 8.969 6.969 1.370 1.376 {built-in method builtins.exec} 

9.609 9.969 1.379 1.376 {_cython magic c7d6eab16ab5658137c9af8534d5cafb.c benchmark} 

入 0.600 8.969 6.9609 9.999 {method 'disabte' of ' lsprof.Profiler' objects} 











你 还 可 在 notebook 中 直接 使 用 第 1 章 讨论 的 工具 line_profiler。 要 支持 行 注释 (line 
annotations )， 必 须 做 如 下 工作 : 


口 启用 编译 指令 1inetrace 和 binding (将 它们 都 设置 为 True ); 
口 在 编译 阶段 启用 标志 CYTHON_TRACE (将 其 设置 为 1 )。 


要 完成 这 些 工 作 很 容易 ， 给 魔法 命令 sgscython 添加 相应 的 参数 ， 并 在 代码 中 设置 相应 
的 编译 间 念 ， 如 下 所 示 。 
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%%cython -a -f -c=-DCYTHON TRACE=1 
# cython: linetrace=True 
# cython: binding=True 


import numpy as np 


cdef int max(int a, int b): 
return a if a > b else b 


def chepbyshev (int xl1l, int yl, int x2, int y2): 
return max(abs (xl - x2), abs(yl - y2)) 


def c_ benchmark () : 
a = np.random.rand(1000, 2) 
b = np.random.rand(1000, 2) 


for 文 1 yl in a: 
fOrF “XZ V2 LN ls 
chebyshev (xl, x2, yl, y2) 


准备 工作 完成 后 ， 就 可 使 用 魔法 命令 $lprun 对 代码 进行 剖析 了 。 


$lprun -f c_benchmark c_benchmark () 
# 输出 : 


Timer unit: 1e-06 s 








Total time: 2.322 s 

File: 
/home/gabriele/.cache/ipython/cython/_cython magic 18ad8204e9d29650f3b09feb 
48ab0f44.pyx 

Function: c benchmark at line 11 


Line # Hits Time Per Hit % Time Line Contents 
11 def c benchmark(): 
12 水 226 226.0 0.0 a = np.random.rand... 
13 1 67 67.0 0.0 b = np.random.rand... 
14 
15 1001 1715 1.7 0.1 for xl1, yl in a: 
16 1001000 1299792 1.3 56.0 for x2, y2 in b: 
17 1000000 1020203 1.0 43.9 chebyshev... 




















如 你 所 见 ， 第 16 行 花费 了 大 量 时 间 ， 这 是 一 个 纯粹 的 Python 循环 ， 很 有 必要 进一步 优化 。 


Jupyter 提供 的 工具 让 你 能 够 快速 完成 编辑 -编译 -测试 循环 ， 从 而 快速 创建 原型 并 节省 测试 
不 同 解决 方案 所 需 的 时 间 。 





4.8 小 结 




















Cython 兼 具 Python 的 便利 性 和 C 语言 的 速度 。 相 比 于 C 绑 定 (binding )，Cython 程序 维护 
和 调试 起 来 要 容易 得 多 ,这 要 归功 于 Cython 与 Python 的 紧密 集成 和 兼容 性 以 及 一 些 卓越 的 工具 。 
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本 章 介绍 了 Cython 语言 的 基础 知识 ， 以 及 如 何 通 过 给 变量 和 函数 参数 添加 静态 类 型 来 提高 
程序 的 速度 。 你 还 学 习 了 如 何 使 用 C 语言 数组 、NumPy 数组 和 内 存 视图 。 


我 们 对 粒子 模拟 器 进行 了 优化 : 通过 重 写 其 中 重要 的 函数 svolve, 极 大 地 提高 了 速度 。 最 
后 学 习 了 如 何 使 用 注释 视图 来 找 出 原本 难以 找 出 的 与 解释 器 相关 的 调用 , 以 及 如 何在 Cython 中 
启用 对 cProfile 的 支持 。 另 外 ， 还 学 习 了 如 何 使 用 Jupyter 集成 的 工具 来 剖析 和 分 析 Cython 
代码 。 


下 一 章 将 探索 其 他 一 些 工 具 , 它们 可 动态 地 生成 速度 更 快 的 机 器 码 , 而 不 要 求 你 先 将 代码 编 
译 成 C 语 言 代 码 。 









































Python 是 一 款 使 用 广泛 而 且 成 熟 的 语言 , 因此 人 们 有 很 大 的 动力 去 改进 它 的 性 能 , 办 法 是 直 
接 将 函数 和 方法 编译 成 机 器 码 ， 而 不 是 在 解释 器 中 执行 指令 。 第 4 章 介绍 了 一 个 这 样 的 例子 ,， 它 
通过 声明 类 型 、 编 译 成 高 效 的 C 代码 并 避免 解释 器 调用 来 改善 Python 代码 。 


本 章 将 探索 两 个 项 目 Numba 和 了 PyPy ,它们 以 与 Cython 稍 有 不 同 的 方式 进行 编译 -Numba 
是 一 个 库 ， 设 计 用 于 动态 地 编译 小 型 函数 。 它 不 是 将 Python 代码 转换 为 C 代码 ， 而 是 对 Python 
函数 进行 分 析 并 将 其 直接 编译 成 机 器 码 。PyPy 是 一 款 解 释 器 ， 它 在 运行 阶段 对 代码 进行 分 析 ， 
并 自动 对 速度 缓慢 的 循环 进行 优化 。 


这 些 工具 都 被 称 为 即时 ( just-in-time ，JIT ) 编译 器 ， 因 为 编译 是 在 运行 阶段 而 不 是 运行 代码 
前 进行 的 [在 运行 代码 前 进行 编译 的 编译 器 称 为 预先 (ahead-oftime，AOT ) 编译 器 ]。 


本 章 介 绍 如 下 主题 : 


口 Numba 基础 ; 

口 使 用 原生 模式 编译 实现 快速 函数 ; 
口 理解 并 实现 通用 函数 ; 

口 JIT 类 ; 

口 安装 PyPy; 

口 使 用 PyPy 运行 粒子 模拟 器 ; 

口 其 他 有 趣 的 编译 器 。 









































































































































5.1 Numba 


Numba 是 2012 年 面世 的 ， 出 自 NumPy 最 初 的 开发 者 Travis Oliphant 之 手 。 这 是 一 个 库 ， 它 


在 运行 阶段 使 用 低级 虚拟 机 (low-level virtual machine，LLVM ) 工具 链 对 Python 函数 进行 编译 。 


LLVM 是 一 组 设计 用 于 编写 编译 器 的 工具 , 它 并 非 针 对 特定 语言 的 , 因此 被 用 来 为 众多 的 语言 
编写 编译 吉 (一 个 著名 的 例子 是 clang 编译 器 )。LLVM 的 一 个 核心 方面 是 中 间 表 示 (intermediate 
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representation， 即 LLYM IR )， 这 是 一 种 独立 于 平台 的 低级 语言 (类似 于 汇编 语言 )， 可 通过 对 其 
进行 编译 来 生成 在 特定 平台 上 运行 的 机 器 码 。 








Numba 检查 Python 函数 ， 并 使 用 LLVM 将 其 编译 为 IR。 正 如 你 在 前 一 章 看 到 的 ,通过 给 变 
量 和 函数 参数 声明 类 型 ,可 提升 速度 。Numba 实现 了 巧妙 的 类 型 猜测 算法 ( 这 被 称 为 类 型 推断 )， 
并 通过 编译 包含 类 型 信息 的 函数 版 本 来 提高 执行 速度 。 















































请 注意 ， 开 发 Numba 旨 在 改善 执行 数值 计算 的 代码 的 性 能 ， 因 此 其 重点 是 优化 大 量 使 用 
NumPy 数组 的 应 用 程序 。 





Numba 的 发 展 速 度 非 常 快 ， 每 次 推出 新 版 本 都 可 能 有 重大 改进 ， 有 时 还 可 能 不 
向 后 兼容 。 要 与 时 俱 进 ,请 务必 参阅 每 版 的 发 行 说 明 。 在 本 章 余 下 的 篇 幅 中 ，, 我 
种 们 将 使 用 Numba 0.30.1 版 。 为 避免 出 现 错误 ， 请 务必 安装 正确 的 版 本 。 


本 章 的 完整 代码 示例 可 在 notebook Numba.ipynb 中 找到 。 
5.1.1 Numba 入 门 


Numba 很 容易 上 手 。 作 为 第 一 个 示例 , 我 们 将 实现 一 个 函数 , 它 计 算 一 个 数组 中 所 有 元 素 的 
平方 和 。 这 个 函数 的 定义 如 下 : 





def sum_ sq(a): 
result 


for i in range(N) : 
result += a[il] 
return result 


要 让 Numba 对 这 个 函数 进行 编译 ， 只 需 将 装饰 咒 nb.jit 应 用 于 它 。 

















from numba import nb 
@nb.jit 


def sum_ sq(a): 


装饰 器 nb.jit 所 做 的 工作 不 多 ， 但 这 个 函数 首次 被 调用 时 ，Numba 将 检测 输入 参数 (a ) 
的 类 型 ， 并 编译 出 一 个 性 能 更 高 的 特殊 版 本 。 


























要 测量 Numba 编译 顺带 来 的 性 能 提升 ， 可 对 原始 函数 和 特殊 函数 的 执行 时 间 进 行 比较 。 要 
访问 未 经 装饰 的 原始 函数 ， 可 使 用 属性 py_func。 这 两 个 函数 的 执行 时 间 如 下 : 








import numpy as np 


x = np.random.rand(10000) 
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# 原始 函数 
gsLimeit sum sq.py_func (x) 
100 loops, best of 3: 6.11 ms per loop 


# Numba 版 函数 
Stimeit sum sql(x) 
100000 loops, best of 3: 11.7 us per loop 


从 上 面 的 输出 可 知 ，Numba 版 的 速度 比 Python 版 快 一 个 数量 级 ( 前 者 的 执行 时 间 为 11.7 微 
秒 ， 而 后 者 的 执行 时 间 为 6.11 毫秒 )。 我 们 还 可 将 这 种 实现 与 NumPy 标准 运算 符 进行 比较 。 





Stimeit (x**2).sum() 
0000 loops, best of 3: 14.8 us per loop 


就 这 个 示例 而 言 ， Numba 编译 得 到 的 函数 的 速度 比 NumPy 向 量化 运算 稍 快 些 。Numba 版 本 
的 速度 之 所 以 更 高 ， 很 可 能 是 因为 NumPy 版 本 在 求 和 前 额外 分 配 了 数组 ， 而 函数 sum_sq 在 数 
中 就 地 执行 运算 。 

由 于 函数 sum_sqa 没有 使 用 数组 特有 的 方法 , 因此 也 可 将 这 个 函数 用 于 包含 浮 点 数 的 Python 
列表 。 有 趣 的 是 ， 相 比 于 列表 推导 ，Numba 的 速度 要 快 得 多 。 


> 












































区 二 St SS Xitolist() 
Stimeit sum sq(x_list) 
1000 loops, best of 3: 199 us per loop 


Stimeit sum([x**2 for x in x_list]) 
1000 loops, best of 3: 1.28 ms per loop 


鉴于 只 需 应 用 一 个 简单 的 装饰 器 ,就 可 在 计算 不 同 数据 类 型 的 平方 和 时 极 大 地 提高 速度 ， 
此 Numba 的 所 作 所 为 就 像 是 在 变 魔术 。 在 接 下 来 的 两 小 和 中 ,我 们 将 深入 探讨 Numba 的 工作 原 
理 ， 并 对 Numba 编译 器 的 优点 和 局 限 性 进行 评估 。 








5.1.2 ”类 型 特殊 化 
正如 你 在 前 面 看 到 的 , 装饰 器 nb .jit 在 遇 到 新 参数 类 型 后 编译 函数 的 特殊 版 本 。 为 了 更 好 
地 理解 其 中 的 工作 原理 ， 可 查看 sum_sq 示例 中 经 过 装饰 的 函数 。 


Numba 通过 属性 signatures 暴露 了 特殊 版 本 。 在 函数 sum_sqa 的 定义 后 面 ， 我 们 可 通过 
访问 sum_sq.signatures 来 查看 现 有 的 特殊 版 本 ， 如 下 所 示 。 



























































sum_ sq.signatures 

# 输出 : 

# [] 

如 果 我 们 使 用 特定 的 参数 ( 如 一 个 float64 数组 ) 调用 这 个 函数 , 将 发 现 Numba 动态 地 编 
译 了 一 个 特殊 版 本 。 如 果 再 使 用 一 个 float32 数组 调用 这 个 函数 ， 将 发 现 列表 sum_sq. 
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signatures 新 增 了 一 个 元 素 。 

x = np.random.rand(1000) .astype('float64') 

sum_sq (x) 

sum_ sq.signatures 

# 结果 : 

# [(array (float64, 1d, C),)] 

x = np.random.rand(1000) .astype('float32') 

sum_sq (x) 

sum_ sq.signatures 

# 结果 : 

# [larav (tf Loatod Ld; "Cp (arrav(F Loat32’. Ld) Cy)] 

可 显 式 地 针对 特定 类 型 来 编译 这 个 函数 ， 为 此 可 向 函数 np.jit 传递 一 个 签名 。 

要 传递 签名 ,可 使 用 一 个 元 组 , 其 中 包含 可 接受 的 类 型 。Numba 提供 了 大 量 的 类 型 , 这些 类 





型 可 在 模块 nb.types 和 顶级 命名 空间 np 中 找到 。 如 果 要 指定 特定 类 型 的 数组 ， 可 将 切片 运算 
符 ([:] ) 用 于 相应 的 类 型 。 下 面 的 示例 演示 了 如 何 声 明 一 个 将 float64 数组 作为 唯一 参数 的 











@nb.jit( (nb.float64[:],)) 
def sum_ sq(a): 





请 注意 ， 显 式 地 声明 签名 后 ， 就 不 能 使 用 其 他 类 型 了 ,如 下 面 的 示例 所 示 。 如 果 我 们 试图 传 





递 一 个 float32 数组 (x)，Numba 将 引发 rvpeError 异常 。 


sum_sq(x.astype('float32')) 
# TypeError: No matching definition for argument type(s) 
arrovtt loatda. L000) 

















男 一 种 声明 签名 的 方式 是 使 用 指定 类 型 的 字符 串 。 例 如 ,要 声明 一 个 函数 , 它 将 一 个 float64 
值 作为 输入 ， 并 输出 一 个 float64 值 ， 可 使 用 字符 串 float64(float64) 。 要 声明 数组 类 型 ， 





可 使 用 后 绥 [ : ] 。 结 合 使 用 这 两 项 规则 ， 可 像 下 面 这 样 声 明 我 们 的 函数 sum_sa: 


@nb.jit("float64(float64[:])") 
def sum_ sql(a): 


还 可 传人 多 个 签名 ， 为 此 可 传人 一 个 列表 : 
enb.jit(["float64(float64[:])"， 


"flLoat64(CtLloat32 Ly)" 
def sum_ sq(a): 


5.1.3 对象 模式 和 原生 模式 


前 面 演示 了 Numba 在 处 理 非 常 简单 的 函数 时 的 行为 。 在 这 种 情况 下 ，Numba 的 表现 非常 出 

















色 ， 无 论处 理 的 是 数组 还 是 列表 ， 性 能 都 得 到 了 极 大 的 提高 。 
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Numba 能 够 在 多 大 程度 上 进行 优化 取决 于 两 个 因素 : 能 否 准 确 地 推断 变量 的 类 型 ; 能 否 将 标 
准 Python 操作 转换 为 速度 更 快 的 、 针 对 特定 类 型 的 版 本 。 如 果 Numba 能 够 做 到 这 两 点 ， 就 能 将 
解释 器 搬 在 一 边 ， 进 而 获得 类 似 于 使 用 Cython 的 性 能 提升 。 

如 果 Numba 无 法 推导 出 变量 的 类 型 ， 它 依然 会 对 代码 进行 编译 ， 但 在 类 型 无 法 确定 或 操作 
没有 得 到 支持 时 转 而 求助 于 解释 器 。 在 Numba 中 ， 这 被 称 为 对 象 模式 ( object mode )， 与 之 相对 
的 是 原生 模式 ( 不 需要 求助 于 解释 器 )。 


Numba 提供 了 一 个 名 为 inspect_types 的 函数 , 可 帮助 你 了 解 类 型 推断 的 效果 有 多 好 , 以 
及 哪些 操作 被 优化 了 。 例 如 ， 我 们 可 查看 Numba 为 函数 sum_sq 所 做 的 类 型 推断 : 
































sum_sq.inspect_types() 


当 你 调用 这 个 函数 时 , Numba 将 打印 为 这 个 函数 的 每 个 版 本 推 新 出 的 类 型 。 和 输出 包含 多 个 部 
分 ， 其 中 列 出 了 有 关 变 量 及 其 类 型 的 信息 。 例 如 ， 请 看 其 中 的 N = len(a) 行 。 








# -=-- LINE 4 -=-- 

# a = arg(0, name=a) :: array (float64, 1d, A) 

# $0.1 = global (len: <built-in function len>) :: 
Function(<built-in function len>) 

# SO 3S.G81 HO Ea) :: (array (float64, 1d, A),) -> int64 
# NS:$0.3,, .0 THEG4 


N= lenl(a) 

对 于 每 一 行 ，Numba 都 打印 有 关 变 量 、 函 数 和 中 间 结 果 的 详细 描述 。 在 上 述 输出 的 第 2 行 ， 
正确 地 指出 了 参数 a 的 类 型 是 一 个 float64 数组 ; 而 在 第 4 行 , 也 正确 地 指出 了 函数 len 的 输 
入 和 返回 类 型 ， 它 们 分 别 是 float64 数组 和 int64 (可 能 经 过 了 优化 )。 


如 果 你 在 输出 中 滚动 , 将 发 现 所 有 变量 都 有 明确 的 类 型 。 由 此 可 以 肯定 , Numba 能 够 极其 高 
效 地 编译 这 些 代码 。 这 种 编译 被 称 为 原生 模式 。 


作为 反例 ， 我 们 来 编写 一 个 使 用 了 不 支持 的 操作 的 函数 ， 看 看 结果 如 何 。 例 如 , 在 0.30.1 版 
中 ，Numba 对 字符 串 操 作 的 支持 有 限 。 


我 们 可 实现 一 个 拼接 一 系列 字符 串 的 函数 ， 并 对 其 进行 编译 ， 如 下 所 示 。 


Gnb .了 it 
def concatenate (Strings) : 
result = "'" 
fo s. Tn StrLNge: 
result += S 
return result 


接 下 来 ， 我 们 使 用 一 个 字符 串 列 表 调 用 这 个 函数 ， 并 查看 类 型 推导 情况 。 
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concatenate(['hello', 'world']) 
concatenate.signatures 

# 输出 : [ (reflected list(str),)] 
Concatenate.inspect_types () 


Numba 的 输出 表明 , 生成 的 特殊 版 本 的 签名 为 reflected 1ist (str)。 我 们 可 查看 Numba 























是 如 何 对 第 3 行 代码 进行 推导 的 。 下 面 是 concatenate.inspect_types () 的 输出 。 
--- LINE 3 ---— 

strings = arg(0, name=strings) i PYODIECt 
SOONStOL, Ss "CONStE (Cetrs..0) :: pyobject 
result = $const0.1 :: pyobject 
jump 6 
label 6 

result = "" 

















从 中 可 知 , 这 次 每 个 变量 ( 函数 参数 ) 的 类 型 都 是 通用 类 型 pyobject, 而 不 是 特定 的 类 型 。 
这 意味 着 如 果 不 求助 于 Python 解释 器 ，Numba 将 无 法 对 这 个 操作 进行 编译 。 最 重要 的 是 ， 如 果 
我 们 对 原始 函数 和 编译 版 的 执行 时 间 进 行 测 量 ， 将 发 现 编译 版 的 速度 比 纯粹 的 Python 版 大 约 要 


慢 3 倍 。 






































x eo] ,LOO 
$timeit concatenate.py_func (x) 
10000 loops, best of 3: 111 ns per loop 


Stimeit concatenate (x) 
1000 loops, best of 3: 317 hs per loop 


这 是 因为 Numba 编译 器 不 仅 无 法 对 代码 进行 优化 ， 还 给 函数 调用 增加 了 额外 的 开销 。 








你 可 能 注意 到 了 , Numba 无 声 无 息 地 编译 代码 ,即便 编译 得 到 的 代码 的 效率 更 低 。 其 中 的 主 
要 原因 是 Numba 能 够 高 效 地 编译 部 分 代码 ， 而 对 于 余下 的 代码 ， 它 可 求助 于 Python 解释 器 。 这 
种 编译 策略 被 称 为 对 象 模式 。 


可 强制 使 用 原生 模式 ， 为 此 可 给 装饰 器 nb. jit 传递 选项 nopython=True。 例如 ， 如 果 我 们 
在 将 这 个 装饰 器 应 用 于 函数 concatenate 时 这 样 做 ， 首 次 调用 这 个 函数 时 Numba 将 引发 异常 。 

















@nb.jit (nopython=True) 
def concatenate(strings): 
result = "'" 
forF 8 in. esteinges: 
result += S 
return result 


concatenate (x) 
# 异常 : 
# TypingError: Failed at nopython (nopython frontend) 


对 调试 来 说 ， 这 项 功能 很 有 用 ， 它 还 可 确保 所 有 代码 的 速度 都 很 快 是 指定 了 正确 的 类 型 。 
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5.1.4 Numba 和 NumPy 


最 初 开 发 Numba 旨 在 提升 使 用 NumpPy 数组 的 代码 的 性 能 ， 当 前 , 这 个 
NumPy 的 很 多 功能 。 


以 


译 吉 高 效 地 实现 了 

















1. Numba 通用 函数 


通用 函数 (universal fbnction，ufunc ) 是 NumPy 中 定义 的 特殊 函数 ， 可 根据 广播 规则 操作 不 
同 长 度 和 形状 的 数组 。Numba 最 大 的 优点 之 一 是 实现 了 快速 的 ufunc。 


你 在 第 3 章 见 过 一 些 ufunc， 例 如 ，np .1og 就 是 一 个 ufunc， 因 为 它 能 够 将 标量 以 及 长 度 和 
形状 不 同 的 数组 作为 输入 。 另 外 ,接受 多 个 参数 的 通用 函数 也 根据 广播 规则 进行 工作 ,这 样 的 通 
用 函数 包括 np.sum 和 np.difference。 

在 NumPy 中 ,可 这 样 定 义 通用 函数 : 实现 其 标量 版 ， 并 使 用 函数 np .vectorize 添加 广播 
功能 。 例 如 ， 下 面 将 演示 如 何 编写 康 托 尔 配 对 函数 ( Cantor pairing function )。 


配对 函数 将 两 个 自然 数 编码 成 一 个 自然 数 , 让 你 能 够 在 这 两 种 表示 法 之 间 轻 松 地 转换 。 可 以 
像 下 面 这 样 编写 康 托 尔 配对 函数 : 










































































import numpy as np 


def cantor(a, b): 
return int(0.5 * (a + b)*(a + b+ 1) + b) 


前 面 说 过 ,使 用 纯粹 的 Python 时 ， 可 使 用 装饰 器 np .vectorized 来 创建 通用 函数 。 








@np.vectorize 
def cantor(a, b): 
return int(0.5 * (a + b)*(a + b+ 1) + b) 


Gantor(ne. array ttl; 2 2) 

# 结果 : 

# array ([ 8, 12]) 

如 果 不 考虑 便利 性 ， 使 用 纯粹 的 Python 来 定义 通用 函数 不 是 很 有 用 ， 因 为 这 涉及 大 量 存在 
解释 器 开销 的 函数 调用 。 有 鉴于 此 ，ufunc 通常 是 使 用 C 或 Cython 实现 的 ， 但 这 些 做 法 都 不 如 
Numba， 因 为 它 提供 了 极 大 的 便利 性 。 


在 Numba 中 ， 要 完成 定义 通用 函数 所 需 的 转换 ， 只 需 使 用 与 np .vectorized 等 价 的 装饰 
髓 nbp.vectorize。 我 们 可 以 比较 标准 np.vectorized 版 (cantor_py ) 的 速度 和 使 用 标准 
NumPy 操作 实现 的 版 本 的 速度 ， 如 下 面 的 代码 所 示 。 

# 纯粹 的 Python 版 本 

stimeit cantor_py (x1, x2) 


100 loops, best of 3: 6.06 ms per loop 
# Numba 
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gLimeit cantor (X1L，X2) 

100000 loops, best of 3: 15 hs per loop 

# Numpy 

Stimeit (0.5 * (xl] + XxX2)*(xl + X2 + 1) + x2) .astype (int) 
10000 loops, best of 3: 57.1 hs per loop 


从 中 可 知 ，Numba 遥遥 领先 于 其 他 所 有 版 本 ! Numba 之 所 以 表现 如 此 出 色 ， 是 因为 这 个 函 
数 很 简单 ， 能 够 进行 类 型 推导 。 





通用 函数 的 另 一 个 优点 是 ， 可 并 行 地 执行 ， 因 为 它们 依赖 于 各 个 值 。Numba 提 
供 了 对 这 种 函数 进行 并 行 化 的 简单 方式 : 向 装饰 器 nb.vectorize 传递 关键 字 
参数 target="cpu" 或 target="gpu"。 
2. 泛 化 通用 函数 
通用 函数 的 一 个 局 限 性 是 其 定义 必须 针对 标量 值 。 泛 化 通用 孙 数 ( generalized universal 
function，gufunc ) 是 对 接受 数组 的 过 程 的 通用 函数 扩展 。 
一 个 典型 的 示例 是 矩阵 乘法 。 在 NumPy 中 ， 要 执行 矩阵 乘法 运算 , 可 使 用 函数 np .matmul ， 
它 接 受 两 个 二 维 数组 并 返回 一 个 二 维 数组 。 下 面 是 一 个 使 用 np .matmul 的 示例 。 









































a = np.random.rand(3, 3) 
b = np.random.rand(3, 3) 
Gs Np matml (a PD) 
c.shape 

# 结果 : 

# (3, 3) 


前 一 小 节 说 过 ，ufunc 将 操作 广播 到 整个 标量 数组 ， 因 此 一 种 自然 而 然 的 泛 化 是 广播 到 数组 
的 数组 。 例 如 ， 有 两 个 由 3 x 3 矩阵 组 成 的 数组 ,我们 希望 np .matmul 能 够 计算 它们 的 乘积 。 在 
下 面 的 示例 中 ， 有 两 个 数组 ， 它 们 分 别 包 含 10 个 形状 为 (3，3) 的 和 矩阵。 如果 将 它们 传递 给 
np .matmul ， 将 计算 相应 矩阵 的 乘积 ， 得 到 一 个 新 数组 ， 其 中 包含 10 个 结果 (而 每 个 结果 也 都 
是 形状 为 (3，3) 的 矩阵 )。 
































= np.random.rand(10, 3, 3) 
= np.random.rand(10, 3, 3) 
= np.matmul (a, b) 

.Shape 


大 大 N Tn 
1 


(10933733 


广播 规则 的 工作 原理 与 此 类 似 。 例如 , 如 果 有 一 个 由 (3,，3) 算 阵 组 成 的 数组 ( 其 形状 为 (10， 
3，3) )， 可 使 用 np .matmul 来 对 其 中 的 每 个 元 素 与 一 个 (3，3 ) 的 矩阵 执行 矩阵 乘法 运算 。 根 
据 广播 规则 ， 将 通过 重复 这 个 (3，3) 和 矩阵 ， 得 到 一 个 形状 为 (10，3，3) 的 矩阵 : 





























a 
b 
@ 


np.random.rand(10, 3, 3) 
np.random.rand(3, 3) # Broadcasted to shape (10, 3, 3) 
np.matmul (a, b) 
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c.shape 

# 结果 : 

#0 (103 3 39 

Numba 提供 了 装饰 器 nb.guvectorize， 以 支持 高 效 的 泛 化 通用 函数 实现 。 例 如 ， 我 们 将 
实现 一 个 泛 化 通用 函数 , 它 计算 两 个 数组 的 欧 几 里 得 距离 。 要 创建 gufunc， 必 须 定 义 一 个 这 样 的 
函数 : 它 将 数组 作为 输入 ， 并 返回 一 个 包含 计算 结果 的 数组 。 

装饰 絮 nb.guvectorize 接受 两 个 参数 。 
口 输入 和 输出 的 类 型 : 两 个 作为 输入 的 一 维 数组 和 一 个 作为 输出 的 标量 。 
口 表示 输入 和 输出 长 度 的 布局 字符 串 ; 在 这 里 ,输入 是 两 个 长 度 相同 的 数组 ( 用 两 个 n 表 

示 )， 输出 是 一 个 标量 。 

下 面 的 示例 演示 了 如 何 使 用 装饰 器 nb .guvectorize 来 实现 函数 suclidean。 
@nb.guvectorize(['float64[:], float64[:], float64[:]'], '(n), (n) - 
站 人 


def euclidean(a, b, out): 
N= a.shape[l0] 












































out[0] ss 050 
for i in range(N): 
out[0] += (a[i] - b[li])**2 


这 里 有 儿 个 非常 重要 的 地 方 需要 说 一 说 。 我 们 将 输入 (a 和 ? ) 的 类 型 声明 为 float 64[:]， 
因为 它们 是 一 维 数组 。 但 输出 参数 呢 ? 前 面 不 是 说 它 是 一 个 标量 吗 ? 没 错 ， 是 标量 , 但 Numba 
将 标量 视 为 长 度 为 1 的 数组 ， 因 此 这 里 将 它 声明 为 float64[:]。 

同样 , 布局 字符 串 指出 函数 接受 两 个 长 度 为 n 的 数组 , 而 其 输出 是 一 个 标量 , 用 一 对 空 的 括 
号 ( () ) 表示 。 然 而 ,传递 的 输出 将 是 一 个 长 度 为 1 的 数组 。 


另外 请 注意 ， 这 个 函数 什么 都 不 返回 ， 因 此 所 有 输出 都 必须 写 入 到 数组 out 中 。 















































前 述 布 局 字符 串 中 的 字母 nm 是 随意 选择 的 ， 你 也 可 使 用 字母 k 或 你 喜欢 的 其 他 
字母 。 另 外 ， 如 果 要 组 合 长 度 不 同 的 数组 ， 可 使 用 诸如 (mn，m) 这 样 的 字符 串 。 


这 个 全 新 的 函数 euclidaean 可 用 于 不 同形 状 的 数组 ， 如 下 面 的 示例 所 示 。 


a = np.random.rangd (2) 

b = np.random.rand (2) 

c = euclidean(a，b) # 形状 : (1,) 
a =. ND. random: rand(lo, 2) 

bE nn. random,. rand (tO; -2) 

c = euclidean(a，b) # 形状 : (10,) 
a = np.random.rand(10, 2) 

b = np.random.rand(2) 


euclidean(a，Db) # 形状 : (10,) 
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与 标准 NumPy 相 比 ， 函 数 sucliaean 的 速度 怎样 呢 ? 在 下 面 的 代码 中 ， 我 们 对 向 量化 的 
NumPy 版 本 和 刚 定 义 的 函数 sucliaean 进行 了 基准 测试 。 


a = np.random.rand(10000, 2) 
b = np.random.rand(10000, 2) 


stimeit ((a - b)**2).sum(axis=1) 
1000 loops, best of 3: 288 hs Per loop 


stimeit euclidean(a, b) 
10000 loops, best of 3: 35.6 hs Per loop 


同样 ，Numba 版 本 遥遥 领先 于 NumPy 版 本 ! 


5.1.5 JIT 类 


当前 ，Numba 不 支持 对 泛 型 Python 对 象 进行 优化 。 然 而 ， 这 种 局 限 性 对 数值 计算 代码 的 影 
响 不 大 ， 因 为 这 种 代码 通常 只 涉及 数组 和 数学 运算 。 


尽管 如 此 ， 对 有 些 数据 结构 来 说 ， 使 用 对 象 实现 起 来 要 自然 得 多 ,因此 Numba 支持 定义 类 ， 
而 这 些 类 可 编译 成 快速 的 原生 代码 。 


别 忘 了 ， 这 是 一 种 最 新 推出 的 功能 ， 但 很 有 用 ， 因 为 它 允 许 我 们 扩展 Numba， 以 支持 使 用 5 
数组 不 容易 实现 的 数据 结构 。 


作为 例子 ， 我们 将 演示 如 何 使 用 JIT 类 来 实现 简单 的 链表 。 要 实现 链表 ， 可 定义 一 个 Node 
类 ,这 个 类 包含 两 个 字段 : 一 个 值 以 及 一 个 到 下 一 个 节点 的 链接 。 如 下 图 所 示 ，, 每 个 广 点 都 链接 
到 下 一 个 节点 并 包含 一 个 值 , 而 最 后 一 个 节点 包含 一 个 断 开 的 链接 ,我们 将 这 个 链接 的 值 设置 为 


Noneo 














在 Python 中， 我 们 可 以 这 样 定义 Node 类 : 


class Node: 
def _ init (self, value): 
self.next = None 
self.value = value 


为 管理 一 系列 Node 实例 ， 可 创建 另 一 个 类 一 一 LinkedList。 这 个 类 跟踪 链表 的 开头 〈 在 
上 图 中 ， 这 对 应 于 值 为 3 的 节点 ) 要 在 链表 开头 插入 一 个 节点 ， 只 需 新 建 一 个 Node 实例 ， 并 
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将 其 链接 到 当前 的 链表 头 。 


在 下 面 的 代码 中 ， 我 们 为 LinkedList 定义 了 初始 化 函数 和 方法 push_back， 其 中 方法 
push_back 使 用 前 面 所 说 的 策略 在 链表 开头 搬入 一 个 节点 。 








class LinkedList: 


def _ init (self): 
self.head = None 


def push _ front (self, value): 


if self.head == None: 
self.head = Node (value) 
else: 
# 替换 链表 头 


new_head = Node (value) 
new_head.next = self.head 
self.head = new_head 


为 方便 调试 ， 我们 还 可 实现 方法 LinkegdList .show， 它 遍历 并 打印 链表 中 的 每 个 节点 。 这 
个 方法 的 代码 如 下 所 示 : 


def show(self): 
node = self.head 
while node is not None: 
print (node.value) 
node = node.next 


现在 可 对 LinkedList 进行 测试 ， 看 看 它 的 行为 是 否 正确 。 为 此 ， 可 创建 一 个 空 链表 ， 添 
加 儿 个 节点 , 并 打印 链表 的 内 容 。 请 注意 ， 由 于 我 们 在 链表 开头 压 入 广 点 ， 因 此 最 后 插入 的 节点 
将 最 先 打 印 。 


lst = LinkedList 
Tet pusSh. front(i 
Tat.Dusk. frrit ta 
lst.push_ front (3 
lst.show() 


























() 
) 
) 
) 





最 后 ， 我 们 可 实现 一 个 函数 一 一 sum_1ist， 它 返回 链表 中 所 有 节点 值 之 和 。 我 们 将 测量 这 
个 方法 的 Numba 版 本 和 纯粹 的 Python 版 本 在 执行 时 间 上 的 差别 。 


@np.jit 
def sum list(lst): 
result = 0 
node = lst.head 
while node is not None: 
result += node.value 
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node = node.next 
return result 


如 果 测 量 原始 版 sum_list 和 nb.jit 版 的 执行 时 间 ， 将 发 现 没 有 多 大 的 差别 。 这 是 因为 
Numba 无 法 推断 类 的 类 型 。 


lst = LinkedList() 
lst.push front (i) for i in range(10000)] 





Stimeit sum lis 
1000 loops, bes 


a Tie (St 
of 3: 2.36 ms per loop 


Stimeit sum list(lst) 
100 loops, best of 3: 1.75 ms per loop 


为 改进 sum_list 的 性 能 ， 可 使 用 装饰 器 nb.jitclass 来 编译 Node 和 LinkedList 类 。 


装饰 器 nb.jitclass 接受 一 个 参数 ， 其 中 包含 被 装饰 类 的 属性 的 类 型 。 在 Node 类 中 ， 属 
隆 value 的 类 型 为 int64， 而 属性 next 的 类 型 为 Nodae。 装 饰 器 nb.jitclass 还 会 编译 类 的 
所 有 方法 。 深 入 探讨 代码 前 ， 还 有 两 点 需要 说 明 。 


首先 ， 必 须 先 声明 属性 ， 再 定义 类 ， 但 如 何 声明 还 未 定义 的 类 型 呢 ? Numba 提供 了 函数 
nb.deferred type(), 可 用 来 完成 这 项 任务 。 


其 次 ， 属 性 next 可 以 是 None， 也 可 以 是 一 个 Noge 实例 。 这 被 称 为 可 选 类 型 ， 而 Numba 
提供 了 实用 工具 nb.optional， 让 你 得 以 指出 变量 的 取 值 可 能 为 None。 


下 面 的 代码 示例 演示 了 如 何 将 装饰 器 应 用 于 Nodae 类 。 如 你 所 见 ， 预 先 使 用 np .deferred_ 
type() 声 明了 node_type。 属性 是 在 一 个 列表 中 声明 的 ,该 列表 中 的 每 个 元 素 都 包含 属性 名 和 
类 型 ( 另外 请 注意 ， 其 中 还 使 用 了 nb.optional )。 声 明 Node 类 后 ， 必 须 声明 延迟 的 类 型 
( deferred type )。 
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node_type = nb.dqeferred_type() 


node_spec = [ 
('next', nb.optional (node_type)), 
('value', nb.int64) 


] 


@nb.jitclass (node_spec) 
class Node: 


# Node 类 的 类 体 没 变 
node_type.define (Node.class_type.instance_type) 


LinkedList 类 很 容易 编译 ， 只 需 定义 属性 heada， 并 应 用 装饰 器 nb.jitclass 即 可 ， 如 
下 所 示 。 








11_spec = [ 
('head', nb.optional (Node.class_type.instance type)) 
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@nb.jitclass (ll1_spec) 
class LinkedList: 


# LinkeaList 类 的 类 体 没 变 
现在 可 以 测量 传人 JITI 类 LinkeaList 的 实例 时 ， 函 数 sum_list 的 执行 时 间 了 。 


lst = LinkedList() 
lst.push_ front (i) for i in range(10000)] 


stimeit sum list(lst) 
1000 loops, best of 3: 345 us per loop 











$timeit sum list.py_func(lst) 
100 loops, best of 3: 3.36 ms per loop 


有 趣 的 是 , 在 编译 型 函数 中 使 用 IT 类 时 , 性 能 相 比 于 纯粹 的 Python 版 本 有 极 大 的 提升 。 然 
而 ,在 原始 函数 sum_1list .py_func 中 使 用 JIT 类 时 ， 性 能 反 而 降低 了 。 因 此 ， 请 务必 只 在 编 
译 型 函数 中 使 用 JIT 类 |! 


5.1.6 Numba 的 局 限 性 


在 有 些 情 况 下 ,Numba 无 法 正确 地 推断 出 变量 的 类 型 ， 进 而 拒绝 编译 。 在 下 面 的 示例 中 , 我 
们 定义 了 一 个 函数 ， 它 接受 一 个 能 套 的 整数 列表 ,并 返回 每 个 子 列 表 中 所 有 元 素 之 和 。 在 这 个 示 
例 中 ，Numba 将 引发 valueError 异常 ， 并 拒绝 编译 。 




















[EO :9 
[3, 4], 
[Sp 全 7 8 
@npb.jit 
def sum_ sublists (a): 
result = [] 


for sublist in a: 
result.append (sum(sublist)) 
return result 


sum_sublists (a) 
# ValueError: cannot compute fingerprint of empty list 


这 些 代码 存在 的 问题 是 , Numba 无 法 确定 列表 result 的 类 型 , 因此 以 失败 告终 。 要 修复 这 
种 问题 ,一 种 办 法 是 将 列表 result 初始 化 为 包含 一 个 元 素 ， 以 帮助 编译 器 确 定 该 列表 的 类 型 ， 
并 在 最 后 将 这 个 元 素 删 除 。 








+ 


@npb.jit 
def sum_ sublists (a): 
result = [0] 


for sublist in a: 
result.append (sum(sublist)) 
return result[1:] 
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在 Numba 编译 需 中 还 没有 实现 的 功能 包括 函数 和 类 定义 、 列 表 、 集 推导 和 字典 推导 、 生 成 
器 、with 语句 以 及 try except 块 。 但 请 注意 ， 其 中 许多 功能 未 来 都 可 能 得 到 支持 。 





5.2 PyPy 项 目 

PyPy 是 一 个 野心 勃勃 的 项 目 ， 旨 在 改善 Python 解释 器 的 性 能 ， 这 是 通过 在 运行 阶段 自动 编 
译 速 度 缓慢 的 代码 实现 的 。 

PyPy 是 使 用 特殊 语言 RPython ( 而 不 是 C 语言 ) 编写 的 ， 让 开发 人 员 能 够 快速 而 可 靠 地 实 
现 高 级 功能 和 改进 。RPython 的 意思 是 “ 受 限 的 Python”( restricted Python )， 因 为 它 只 实现 了 
Python 语言 中 用 于 开发 编译 器 的 那 部 分 。 

当前 ，PyPy 5.6 版 支持 大 量 的 Python 功能 ， 完 全 可 用 于 编写 众多 不 同 的 应 用 程序 。 

PyPy 采用 一 种 非常 巧妙 的 策略 来 编译 代码 ， 这 种 策略 被 称 为 跟踪 式 JIT 编译 (tracing JIT 
compilation )。 一 开始 ，PyPy 像 通 常 那样 使 用 解释 器 调用 来 执行 代码 ， 然 后 开始 剖析 代码 ， 找 出 
耗 时 最 多 的 循环 。 找 出 这 些 循 环 后 ，PyPy 编译 需 观 察 ( 跟踪 ) 操作 ， 并 编译 出 经 过 优化 且 不 需 
要 解释 器 的 版 本 。 

有 了 优化 版 代码 后 ，PyPy 就 能 够 以 比 解释 型 版 本 快 得 多 的 速度 ,运行 原本 速度 缓慢 的 循环 。 

这 种 策略 与 Numba 的 做 法 形成 了 鲜明 的 对 比 ,在 Numba 中 ,编译 单元 为 方法 和 函数 ,而 PyPy 
只 专注 于 速度 缓慢 的 循环 。 总 体 而 言 , 这 两 个 项 目的 关注 点 也 有 天 壤 之 别 : Numba 只 能 优化 执行 
数值 计算 的 代码 ， 且 需要 做 大 量 的 准备 工作 ， 而 PyPy 致力 于 取代 CPython 解释 器 。 


接 下 来 将 演示 如 何 使 用 PyPy 来 执行 粒子 模拟 器 ， 并 进行 基准 测试 。 








































































































































































































5.2.1 安装 PyPy 








PyPy 是 以 预先 编译 好 的 二 进 制 文件 分 发 的 ， 这 个 二 进 制 文件 可 从 http://pypy.org/download. 
html 下 载 。 当 前 ，PyPy 支持 Python 2.7 (在 PyPy 5.6 中 为 beta 支持 ) 和 Python 3.3 (在 PyPy 5.5 
中 为 alpha 支持 )。 本 章 将 演示 如 何在 Python 2.7 中 使 用 PyPy。 

下 载 并 解压 缩 PyPy 后 ， 就 可 在 解压 缩 到 的 文件 夹 中 找到 这 个 解释 器 ， 它 位 于 该 文件 夹 下 的 
目录 bin/pypy 中 。 你 可 使 用 下 面 的 命令 初始 化 一 个 新 的 虚拟 环境 ， 以 便 在 其 中 安装 其 他 的 包 。 

$ /path/to/bin/pypy -m ensurepip 


$ /path/to/bin/pypy -m pip install virtualenv 
$ /path/to/bin/virtualenv my-pypy-env 


要 激活 这 个 环境 ， 可 使 用 如 下 命令 : 


$ source my-pypy-env/bin/activate 
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现在 可 以 核实 Python 链接 到 PyPy 可 执行 文件 了 ， 为 此 可 使 用 命令 python -V。 你 还 可 以 安 
装 其 他 一 些 可 能 需要 用 到 的 包 。PyPy 5.6 版 对 使 用 Python C API 的 软件 ( 其 中 最 著名 的 是 numpy 
和 matplotlib 包 ) 提供 了 有 限 的 支持 。 我 们 可 像 通常 那样 安装 这 些 包 : 














(my-pypy-env) $ pip install numpy matplotlib 


在 有 些 平台 上 ，numpy 和 matplotlib 安装 起 来 可 能 比较 坏 手 。 你 可 不 安装 这 
些 包 ， 并 在 后 面 将 运行 的 脚本 中 删除 导入 它们 的 语句 。 


5.2.2 ”在 PyPy 中 运行 粒子 模拟 器 


安装 PyPy 后 ， 就 可 以 运行 粒子 模拟 器 了 。 首 先 ， 我 们 将 使 用 标准 Python 解释 器 来 执行 第 1 
章 的 粒子 模拟 器 ,并 测量 其 执行 时 间 。 如 果 虚 拟 环境 还 处 于 活动 状态 ,可 使 用 命令 deactivate 
来 退出 。 为 核实 Python 解释 器 为 标准 解释 器 ， 可 使 用 命令 python -V。 

(my-pypy-env) $ deactivate 


$ Python -V 
Python 3.5.2 :: Continuum Analytics, Inc. 


现在 可 在 命令 行 界面 中 使 用 timeit 来 测量 代码 的 执行 时 间 了 。 


$ python -m timeit --setup "from simul import benchmark" "benchmark()" 
10 loops, best of 3: 886 msec per loop 


我 们 可 重新 激活 虚拟 环境 ,并 在 PyPy 中 运行 这 些 代码 。 在 Ubuntu 中 ,导入 模块 matplotlip. 
pyplot 时 可 能 会 遇 到 麻烦 。 为 修复 此 问题 ， 可 尝试 执行 下 面 的 export 命令 ， 也 可 将 导入 
matplotlip 的 语句 从 simul .py 中 删除 。 











$ export MPLBACKEND='agg' 


现在 使 用 PyPy 来 执行 这 些 代 码 并 测量 执行 时 间 。 








$ source my-pypy-env/bin/activate 
Python 2.7.12 (aff251le54385, Nov 09 2016, 18:02:49) 
[PyPy 5.6.0 with GCC 4.8.2] 


(my-pypy-env) $ python -m timeit --setup "from simul import benchmark" 
"benchmark()" 

WARNING: timeit is a very unreliable tool. use perf or something else for 
real measurements 

10 loops, average of 7: 106 +- 0.383 msec per loop (using standard 
deviation) 


注意 ， 性 能 得 到 了 极 大 的 提升 ， 速 度 快 了 8 倍 多 ! 然而 ，PyPy 警告 我 们 ,模块 timeit 可 
能 不 可 靠 。 为 核实 时 间 测 量 结果 ， 可 像 PyPy 建议 的 那样 使 用 模块 perf。 




















(my-pypy-env) $ pip install perf 
(my-pypy-env) $ python -m perf timeit --setup 'from simul import benchmark' 
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"benchmark() 


Median +- std dev: 97.8 ms +- 2.3 ms 


5.3 ”其 他 有 趣 的 项 目 


多 年 来 ， 有 很 多 项 目 试图 通过 多 种 不 同 的 策略 来 改善 Python 的 性 能 ,但 遗憾 的 是 其 中 很 多 
都 以 失败 告终 。 当 前 ， 幸 存 的 项 目 只 有 几 个 ， 它 们 有 望 提高 Python 的 速度 。 


Numba 和 PyPy 都 是 成 熟 的 项 目 ， 多 年 来 一 直 在 不 断 改善 。 它 们 不 断 地 增加 功能 ， 是 Python 
未 来 的 希望 所 在 。 


Nuitka 是 Kay Hayen 开发 的 一 个 程序 ， 它 将 Python 代码 编译 成 C 代 码 。 当 前 (0.5x 版 ), 它 
与 Python 语 言 的 兼容 性 很 高 , 能 够 生成 高 效 的 代码 , 这 些 代 码 在 性 能 上 的 提升 比 CPython 还 高 些 。 


相 比 于 Cython，Nuitka 有 天 壤 之 别 ， 因 为 它 专 注 于 与 Python 语言 兼容 ， 没 有 通过 添加 额外 
的 结构 来 扩展 Python。 


Pyston 是 Dropbox 开发 的 一 款 新 解释 器 ， 用 于 支持 JIT 编译 僻 。 它 与 PyPy 完全 不 同 : 不 使 
用 跟踪 式 JIT, 而 是 使 用 每 次 一 个 方法 的 JIT( 就 像 Numba 所 做 的 那样 ), 与 Numba 一 样 , Numba 
也 建立 在 LLVM 编译 髓 基础 设施 之 上 。 


Pyston 还 处 于 早期 开发 阶段 (alpha 阶段 )， 只 支持 Python 2.7。 基 准 测试 表明 ， 其 速度 比 
CPython 快 , 但 比 PyPy 慢 。 虽 然 如 此 ， 它 还 是 一 个 值得 跟踪 的 项 目 ， 因 为 它 添加 了 新 功能 ， 并 
且 提高 了 兼容 性 。 











































































































5.4 小 结 


Numba 是 一 个 在 运行 阶段 编译 Python 函数 的 快速 专用 版 本 的 工具 。 本 章 介绍 了 如 何 使 用 
Numba 来 编译 函数 以 及 如 何 查 看 并 分 析 它 们 ， 还 介绍 了 如 何 实现 快速 的 NumPy 通用 函数 ， 这 些 
函数 在 很 多 数值 计算 应 用 程序 中 都 很 用。 最后， 我 们 使 用 装饰 顺 nb.jitclass 实现 了 一 些 比 
较 复 杂 的 数据 结构 。 


诸如 PyPy 等 工具 让 你 能 够 原样 运行 Python 程序 ， 并 极 大 地 提高 速度 。 我们 演示 了 如 何 安 装 
PyPy， 并 使 用 它 来 运行 了 粒子 模拟 器 ， 以 看 看 性 能 改善 情况 。 


我 们 还 简要 地 介绍 了 当前 的 Python 编译 器 生态 系统 ， 并 对 这 些 编译 器 做 了 比较 。 


下 一 章 将 介绍 并 发 性 和 异步 编程 。 对 于 那些 花 大 量 时 间 等 待 网 络 和 磁盘 资源 的 应 用 程序 , 使 
用 这 些 技术 可 改善 其 设计 和 响应 速度 。 
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本 书 前 面 探索 了 如 何 测 量程 序 的 性 能 ,以 及 如 何 通过 巧妙 的 算法 和 高 效 的 机 器 码 来 减少 CPU 
执行 的 操作 数 ， 进 而 改善 程序 的 性 能 。 在 有 些 程序 中 ， 大 部 分 时 间 都 花 在 等 待 速度 比 CPU 慢 得 
多 的 资源 ( 如 永久 性 存储 和 网 络 资源 ) 上 ， 本 章 将 把 注意 力 转向 这 样 的 程序 。 
























































异步 编程 是 一 种 编程 范式 ， 可 帮助 你 处 理 速度 缓慢 且 不 可 预测 的 资源 ( 如 用 户 )， 它 被 广泛 


用 于 打造 响应 迅速 的 服务 和 用 户 界面 。 本 章 将 介绍 如 何在 Python 中 使 用 协 程 和 响应 式 编程 等 技 
术 来 进行 异步 编程 。 


本 章 介 绍 如 下 主题 : 


口 存储 器 层次 结构 ; 

口 回调 函数 ; 

口 future ; 

口 事件 循环 ; 

口 使 用 asyncio 编写 协 程 ; 

口 将 同步 代码 转换 为 异步 代码 ; 
口 使 用 RxPy 进行 响应 式 编 程 ; 
口 使 用 被 观察 者 (observable ); 

口 使 用 RxPy 打造 内 存 监视 器 。 




















6.1 异步 编程 


异步 编程 是 一 种 处 理 缓慢 且 不 可 预测 资源 的 方式 。 蜡 步 程 序 能 够 高 效 地 同时 处 理 多 种 资源 ， 
而 不 是 坐 在 那里 等 待 资源 可 用 。 异 步 编 程 可 能 很 难 ， 因 为 这 需要 处 理 外 部 请 求 ， 而 这 些 外 部 请 求 
的 到 达 顺 序 可 能 不 可 预测 ， 处 理 它们 所 需 的 时 间 可 能 不 是 固定 的 ,还 可 能 意外 地 失败 。 本 节 将 介 
绍 异步 编程 的 主要 概念 和 术语 ， 以 及 工作 原理 。 
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6.1.1 等 待 VO 


现代 计算 机 利用 各 种 不 同 的 存储 器 来 存储 数据 和 执行 操作 。 通常 ,计算 机 中 包含 昂贵 但 运行 
速度 快 的 内 存 ， 还 有 价格 便宜 但 运行 速度 缓慢 的 存储 器 ， 后 者 通常 用 来 存储 大 量 的 数据 。 


存储 器 的 层次 结构 如 下 图 所 示 。 











| | 
le | 
= = 
RC | 
在 存储 器 层次 结构 的 顶端 是 CPU 寄存 器 ， 它 们 集成 在 CPU 中 ， 用 于 存储 和 执行 机 器 指令 。 


访问 寄存 器 中 的 数据 所 需 的 时 间 通 常 为 一 个 时 钟 周期 , 这 意味 着 如 果 CPU 的 频率 为 3GHz, 访问 
CPU 寄存 带 中 一 个 元 素 所 需 的 时 间 大 约 为 0.3 纳 秒 。 


寄存 器 下 面 那 层 是 CPU 缓存 。 缓 存 有 多 级 ， 也 被 集成 到 处 理 器 中 。 绥 存 的 速度 比 寄存 器 慢 
些 ， 但 在 一 个 数量 级 内 。 


存储 器 层次 结构 中 的 接 下 来 一 层 是 主 存 〈 内 存 )， 它 能 够 存储 的 数据 比 缓存 多 得 多 ， 但 速度 
更 慢 。 从 内 存 中 获取 一 个 元 素 所 需 的 时 间 可 能 是 几 百 个 时 钟 周期 。 


最 底层 是 永久 性 存储 ， 如 旋转 磁盘 (HDD ) 和 固态 硬盘 ( SSD )。 这 些 设备 能 够 存储 的 数据 
最 多 ， 但 速度 比 主 存 差 几 个 数量 级 。 为 寻找 并 获取 一 个 元 素 ，HDD 可 能 需要 几 毫 秒 ， 而 SSD 的 
速度 则 快 得 多 ， 需 要 的 时 间 不 到 1 毫秒 。 


为 了 让 你 对 各 种 存储 器 的 相对 速度 有 清楚 的 认识 ， 可 以 打 个 比方 : 如 果 CPU 的 时 钟 周 期 约 
为 1 秒 , 访问 寄存 带 将 相当 于 从 桌子 上 取 支 铅笔 , 访问 缓存 相当 于 从 书架 上 取 本 书 , 访问 内 存 相 
当 于 将 衣物 在 干洗 机 上 放 好 ( 比 访问 缓存 慢 20 倍 )。 永久 性 存储 的 速度 相差 很 大 : 从 SSD 中 获 
取 一 个 元 素 相 当 于 4 天 的 旅行 ， 而 从 HDD 中 获取 一 个 元 素 需要 6 个 月 ! 如 果 要 通过 网 络 访问 资 
源 ， 需 要 的 时 间 将 更 长 。 

前 面 的 示例 清楚 地 说 明 , 相 比 于 CPU, 访问 永久 性 存储 和 其 他 IO 设备 中 数据 的 速度 要 慢 得 
多 。 因 此 处 理 这 些 资 源 时 ， 不 让 CPU 漫 无 目的 地 等 待 至 关 重 要 。 为 确保 这 一 点 ， 可 精心 地 设计 
软件 ， 使 其 能 够 同时 管理 多 个 请 求 。 














6.1.2 并 发 


并 发 是 一 种 实现 系统 同时 处 理 多 个 请 求 的 方式 , 其 基本 理念 是 在 等 待 资源 期 间 可 着 手 处 理 其 
他 的 资源 。 并 发 的 工作 原理 是 : 将 任务 划分 成 可 不 按 顺序 执行 的 子 任务 ， 这 样 就 能 同时 处 理 多 个 
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子 任务 ， 而 无 须 等 到 前 面 的 子 任务 完成 。 

在 第 一 个 示例 中 ， 我 们 将 介绍 如 何 实 现 对 缓慢 的 网 络 资源 的 并 发 访问 。 假 设 有 一 个 Web 服 
务 ， 它 获取 数字 的 平方 ; 另外 ， 假 设 从 请 求 该 Web 服务 到 获得 响应 的 时 间 大 约 为 1 秒 。 我 们 可 
实现 函数 network_request， 它 接受 一 个 数字 ,并 返回 一 个 字典 ， 其 中 包含 有 关 计 算是 否 成 功 
的 信息 以 及 计算 结果 。 为 模拟 该 Web 服务 ， 可 使 用 函数 time .sleep， 如 下 所 示 。 


import time 





def network_ request (number): 
time.sleep(1.0) 
return {"success": True, "result": number ** 2} 


另外 , 我 们 还 编写 其 他 一 些 代码 ,它们 发 出 请 求 、 核 实 请 求 成 功 并 打印 结果 。 在 下 面 的 代码 
中 ,我 们 定义 了 函数 fetch_square， 并 使 用 它 来 计算 数字 2 的 平方 ( 而 它 通 过 调用 network_ 
request 计算 这 个 数 的 平方 )。 
def fetch_ square (number): 
response = network_ request (number) 


if response["success"]: 
print ("Result is: {}".format (response["result"])) 





fetch square (2) 
# 输出 : 
# 结果 : 4 


由 于 网 络 速度 缓慢 ， 从 网 络 获取 一 个 数字 需要 1 秒 。 如 果 要 计算 多 个 数字 的 平方 , 该 怎么 办 
呢 ? 我 们 可 多 次 调用 fetch_square， 其 中 每 个 调用 都 将 在 前 一 个 调用 结束 后 发 起 网 络 请 求 。 
fetch square (2) 


fetch square(3) 
fetch square (4) 





# 输出 : 

# 结果 : 4 
# 结果 : 9 
# 结果 : 16 








上 述 代码 需要 3 秒 才能 执行 完毕 ， 但 这 样 的 结果 不 是 最 佳 的 。 没 必要 等 待 前 一 个 请 求 结束 ， 
因为 从 技术 上 说 ,我 们 可 以 同时 提交 多 个 请 求 ， 青 等 待 它们 的 结果 。 

在 下 图 中 , 用 方 框 表示 了 这 三 个 任务 , 其 中 CPU 为 处 理 并 提交 请 求 而 花费 的 时 间 为 深 灰 色 ， 
而 等 待 时 间 为 浅 灰 色 。 从 中 可 知 ,大 部 分 时 间 都 花 在 等 待 资源 上 ， 而 在 等 待 期 间 ， 机 顺 在 那里 干 
坐 着 ， 什 么 都 没 做 。 

















fetch_square(2) fetch_square(3) fetch_square(4) 
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理想 情况 下 ， 应 在 等 待 已 提交 的 任务 结束 时 开始 另 一 个 新 任务 。 在 下 图 中 ， 提 交 fetch_ 
square (2) 中 的 请 求 后 ， 就 可 开始 为 fetch_sauare (3) 做 准备 了 。 这 样 可 减少 CPU 等 待 时 间 ， 
并 在 有 了 结果 后 立即 着 手 人 处理。 





| | 


之 所 以 能 够 采取 这 种 策略 , 是 因为 这 三 个 请 求 是 完全 独立 的 , 无 须 等 到 前 一 个 任务 完成 后 再 
着 手 处 理 下 一 个 任务 。 另 外 ,单个 CPU 就 能 得 心 应 手 地 处 理 这 种 情形 。 虽 然 将 工作 分 配给 多 个 
CPU 去 完成 可 进一步 提高 执行 速度 , 但 如 果 相 对 于 处 理 时 间 而 言 等 待 时 间 很 长 , 这 样 做 带 来 的 速 
度 提 升 将 很 有 限 。 


要 实现 并 发 , 必须 以 不 同 的 方式 思考 和 编写 代码 。 下 一 节 将 介绍 实现 健壮 的 并 发 应 用 程序 的 
技巧 和 最 佳 实践 。 



































6.1.3 回调 函数 


前 面 介 绍 的 代码 阻塞 程序 的 执行 , 直到 资源 可 用 ,其 中 负责 等 待 的 调用 是 time .sleep。 为 
了 让 代码 立即 着 手 处 理 其 他 任务 , 需要 想 办 法 避免 阻塞 程序 流程 , 让 程序 的 其 他 部 分 能 够 继续 完 
成 其 他 任务 。 

为 此 ， 最 简单 的 办 法 之 一 是 使 用 回调 函数 ， 其 策略 与 我 们 叫 出 租车 时 很 像 。 

假设 你 在 饭店 喝 了 几 杯 酒 ， 而 外 面 下 着 雨 ， 你 不 想 去 坐 公交 车 ， 于 是 决定 叫 辆 出 租车 ， 并 让 
司机 到 达 后 给 你 打 电 话 。 这 样 你 将 在 接 到 电话 后 再 出 饭店 ， 避 免 在 雨中 等 待 。 

在 这 种 情况 下 ， 你 叫 了 辆 出 租车 〈 速度 较 慢 的 资源 )， 但 不 在 饭店 外 等 待 出 租车 到 来 ， 而 是 
向 司机 提供 电话 号 码 和 说 明 (回调 函数 )， 以 便 等 出 租车 到 了 后 再 出 来 乘 车 回 家 。 


下 面 来 演示 如 何在 代码 中 使 用 这 种 机 制 。 我 们 将 对 阻塞 代码 time.sleep 与 非 阻塞 代码 
threading.Timer 进行 比较 。 

在 这 个 示例 中 ,我 们 将 编写 一 个 函数 一 一 wait_anaqa_print, 它 将 程序 执行 流程 阻塞 一 秒 钟 ， 
再 打印 一 条 消息 。 
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def wait_andq_print (msg): 
time.sleep(1.0) 
print (msg) 


要 以 非 阻塞 方式 编写 这 个 函数 ,可 使 用 








threading.Timer 类 。 我 们 可 初始 化 一 个 


threading.Timer 实例 : 传递 要 等 待 的 时 长 以 及 一 个 回调 函数 。 回 调 函 数 不 过 是 一 个 将 在 定时 
器 到 期 后 被 调用 的 函数 。 请 注意 ， 我 们 还 必须 调用 方法 Timer . start 来 激活 定时 器 。 





import threading 


def wait_angd print_async (msg): 
def callback(): 
print (msg) 


timer = threading.Timer(1.0, 
timer.start () 





callback) 


函数 wait_and_print_async 的 一 个 重要 特征 是 , 其 中 的 所 有 语句 都 不 会 阻塞 程序 的 执行 


流程 。 


@ 


threading.Timer 是 如 何 做 到 在 等 待 的 同时 不 阻塞 的 呢 ? threading.Timer 
使 用 的 策略 是 启动 一 个 新 线程 ， 该 线程 能 够 并 行 地 执行 代码 。 如 果 这 不 好 理解 ， 
也 不 用 担心 ， 本 书后 面 将 详细 介绍 线程 和 并 行 编 程 。 

















这 种 注册 回调 函数 , 以便 在 特定 事件 发 生 时 执行 它 的 方式 称 为 好 莱 坞 原则 , 这 是 因为 在 好 莱 
坞 ， 演 员 试 镜 后 可 能 被 告知 “不 要 给 我 们 打 电 话 ， 我 们 会 给 你 打 电 话 ”， 这 意味 着 他 们 不 会 立即 

















告诉 你 是 否 选 定 了 你 ， 但 如 果 选 定 了 你 ， 


会 给 你 电话 的 。 


为 突出 阻塞 版 wait_anq_print 和 非 阻塞 版 的 差别 ， 可 比较 这 两 个 版 本 的 执行 情况 。 在 下 


面 的 输出 注释 中 ，< 等 待 ……> 表 示 等 待 过 程 。 


# 同步 的 
wait_angd print ("First call") 
wait_angd print ("Second call") 
BETNt (TAFCEF .all 


# 输出 : 

# < 等 待 A ¥ 

# First call 
# < 等 待 ee > 

# Second call 
# After call 
# 异步 的 


wait_andq_print_async("PFirst call async") 


wait_angd print_async ("Second call async") 


print ("After submission") 


# 输出 : 
After submission 
< 等 待 …… 


FiRSt Gall 


# 
# 
Hl 
# Secongd call 
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同步 版 本 的 行为 与 以 前 很 像 : 代码 等 待 1 秒 钟 ， 打 印 First cal1， 再 等 待 1 秒 钟 ， 然 后 打 


印 消 息 secondq call 和 After call。 


在 异步 版 本 中 , wait_and_print_async 提交 ( 而 不 是 执行 ) 这 些 调用 并 立 立即 接着 往 前 走 。 
从 输出 可 知 ， 立 即 打印 了 消息 After submission， 这 说 明 这 种 机 制 发 挥 了 作用 。 


知道 这 些 后 ， 就 可 以 探索 更 复杂 些 的 情形 了 : 使 用 回调 函数 重 写 聘 数 network_request。 
在 下 面 的 代码 中 ， 我 们 定义 了 函数 network_request_async。 相 比 于 阻塞 版 ， 消 数 
network_request_ 最 大 的 不 同 在 于 它 什 么 都 没 返 回 ， 这 是 因为 在 network_request_ 
async 被 调用 时 ， 我们 只 提交 请 求 ， 而 结果 要 等 到 请 求 完 成 后 才能 得 到 。 


既然 什么 都 不 能 返回 ， 如 何 传递 请 求 的 结果 呢 ? 我 们 将 结果 作为 参数 传递 给 回调 函数 
on_done， 而 不 是 返回 它 。 


在 这 个 函数 余下 的 代码 中 , 向 timer.Timer 类 提交 了 一 个 回调 函数 (timer_gdone ), 它 将 
在 准备 就 绪 后 调用 on_done。 


def network_ request_async (number, on_done): 









































def timer_done(): 
on_done({"success": True, 
"result": number ** 2}) 
timer = threading.Timer (1.0, timer_done) 
timer.start() 


network_request_async 的 用 法 与 timer .Timer 很 像 , 只 需 传递 一 个 要 计算 其 平方 的 数 
字 ， 以 及 在 结果 准备 就 绪 后 将 收 到 它 的 回调 函数 ， 如 下 面 的 代码 所 示 。 





def on _donel(result): 
print (result) 


network_request_async(2, on_done) 


现在 ， 如 果 你 提交 多 个 网 络 请 求 ， 将 发 现 调用 将 并 发 地 执行 ， 而 不 会 阻塞 代码 。 

















network_request_async(2, on_done) 

network_request_async(3, on_done) 

network_request_async(4, on_done) 
on 


print ("After submissi 


要 在 fetch_square 中 使 用 network_request_async， 需要 对 其 进行 修改 ， 以 使 用 异步 
结构 。 在 下 面 的 代码 中 ， 我 们 修改 了 fetch_square 定义 回调 函数 on_done 并 将 其 传递 给 


network_request_asynco 





def fetch _ square (number): 
def on_ done(response): 
if responsel["success"]: 








print ("Result is: {}".format (esponse["result"]) ) 


network_request_async (number, on_done) 


你 可 能 注意 到 了 ， 相 比 于 同步 代码 ， 异 步 代码 要 复杂 得 多 。 这 是 因为 每 次 需要 获取 结果 时 ， 
都 必须 编写 并 传递 一 个 回调 函数 ， 这 导致 代 码 一 层 套 一 层 ， 变 得 难以 理解 。 


























6.1.4 future 


future 是 一 种 更 便利 的 模式 , 可 用 来 跟踪 异步 调用 的 结果 。 在 前 面 的 代码 中 , 没有 返回 结果 ， 
而 是 接受 一 个 回调 函数 ， 并 在 结果 就 绪 后 将 其 传递 给 这 个 回调 函数 。 有 趣 的 是 ,到 目前 为 止 , 没 
有 跟踪 资源 状态 的 简单 途径 。 


future 是 一 种 抽象 , 可 帮助 我 们 跟踪 请 求 的 资源 并 等 到 它 可 用 。 在 Python 中 ，concurrent . 
futures .Future 类 提供 了 一 种 fnture 实现 。 要 创建 这 个 类 的 实例 , 可 调用 其 构造 函数 且 不 提供 
任何 参数 。 

fut = Future() 


# 结果 : 
# <Future at 0x7f03e41599e8 state=pending> 


future 表示 一 个 还 不 可 用 的 值 ， 其 字符 串 表示 指出 了 结果 的 当前 状态 ( 这 里 为 pending， 即 还 
未 确定 )。 要 让 结果 可 用 ， 可 使 用 方法 Future.set_result。 
fut.set_result ("Hello") 


# 结果 : 
# <Future at 0x7f03e41599e8 state=finished returned str> 

































































fut.result () 

# 结果 : 

# "Hello" 

如 你 所 见 ， 设置 结果 后 ，Future 将 指出 任务 结束 了 ， 此 时 可 使 用 方法 Future.result 来 
访问 结果 。 还 可 给 future 指定 一 个 回调 函数 ， 这 样 一 旦 结果 可 用 ， 就 将 执行 这 个 回调 函数 。 要 指 
定 回调 函数 ， 只 需 向 方法 Future.add_dqone_callback 传递 一 个 函数 即 可 。 这 样 任 务 结 束 后 ， 
指定 的 函数 将 被 调用 ， 并 将 Future 实例 作为 第 一 个 参数 。 在 指定 的 回调 函数 中 ， 可 使 用 方法 
Future.result () 来 访问 结果 。 


























fut = Future!() 

fut.add_done_ callback (lambda future: print (future.result(), 
flush=True)) 

fut.set_result ("Hello") 

# 输出 : 

# Hello 


为 了 让 你 掌握 如 何在 实际 工作 中 使 用 future， 我 们 将 修改 也 数 network_request_async,， 
在 其 中 转 而 使 用 foture。 这 里 的 理念 是 ， 不 再 什么 都 不 返回 ， 而 是 返回 一 个 Future， 用 于 跟踪 
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结果 。 这 里 需要 注意 两 点 。 





口 不 再 接受 回调 函数 on_done， 因 为 可 在 以 后 使 用 方法 Future.add_done_callback 来 
关联 到 回调 因数 。 男 外 ， 将 通用 方法 Future.set_result 作为 回调 孜 数 传递 给 
threading.Timer,o 


口 这 次 可 以 返回 一 个 值 ， 因 此 代码 与 前 一 节 介 绍 的 阻塞 版 本 更 像 。 





from concurrent.futures import Future 


def network_request_async (number): 
future = Future() 
result = {"success": True, "result": number ** 2} 
timer = threading.Timer(1.0, lambda: future.set_ result (result)) 
timer.start() 
return future 


fut = network_request_async (2) 


在 这 些 示例 中 ,我 们 直接 实例 化 并 管理 future， 但 在 实际 应 用 程序 中 ，future 是 
由 框架 处 理 的 。 


如 果 你 执行 上 述 人 代码， 什么 都 不 会 发 生 ， 因 为 这 些 代码 只 是 创建 并 返回 一 个 Future 实例 。 


要 进一步 操作 future 的 结果 ， 需 要 使 用 方法 Future.add_done_callpback。 在 下 面 的 代码 中 ， 
我 们 修改 函数 fetch_square 以 使 用 future。 




















def fetch _ square (number): 
fut = network_request_async (number) 


def on_ done_future (future): 
response = future.result() 
if response["success"]: 
print ("Result is: {}".format (response["result"])) 





fut.add_done_callback (on_done_future) 


这 些 代 码 依 然 与 回调 版 本 很 像 。future 提供 了 男 一 种 使 用 回调 函数 的 方式 ， 而 且 更 方便 些 。 
使 用 future 也 更 好 ， 因 为 它们 能 够 跟踪 资源 状态 、 撤 销 已 调度 的 任务 以 及 以 更 自然 的 方式 处 理 


忆 沿 ， 
开 吊 。 


6.1.5 ”事件 循环 


前 面 使 用 了 操作 系统 线程 来 实现 并 行 , 但 在 很 多 异步 框架 中 , 并 发 任务 之 间 的 协调 工作 是 由 
事件 循环 管理 的 。 


事件 循环 背后 的 理念 是 , 不 断 地 监视 各 种 资源 ( 如 网 络 链接 和 数据 库 查 询 ) 的 状态 ， 并 在 事 
件 发 生 〈 如 资源 准备 就 绪 或 定时 需 到 期 ) 时 执行 相应 的 回调 函数 。 
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为 何不 坚持 使 用 线程 呢 ? 
在 有 些 情 况 下 , 事件 循环 是 更 佳 的 选择 ,因为 每 个 执行 单元 都 不 会 与 其 他 执行 单 
0 元 同时 运行 , 这 简化 了 共享 变量 、 数 据 结构 和 资源 的 处 理工 作 。 有 关 并 行 执行 及 
其 缺点 的 详细 信息 ， 请 参阅 下 一 章 。 


在 本 节 的 第 一 个 示例 中 ， 我 们 将 实现 threading .Timer 的 非 线 程 版 本 。 我 们 可 定义 一 个 
Timer 类 ， 它 接受 超时 时 间 ， 并 实现 方法 Timer .done (这 个 方法 在 定时 需 到 期 时 返回 True )。 


class Timer: 


def _ init__(self, timeout): 
self.timeout = timeout 
self.start = time.time!() 


def done (self): 
return time.time() - self.start > self.timeout 


为 判断 定时 需 是 否 已 到 期 ， 可 编写 一 个 循环 ， 它 不 断 调 用 方法 Timer .done 来 检查 定时 器 
的 状态 。 定 时 器 到 期 后 ， 我 们 可 打印 一 条 消息 ， 并 退出 循环 。 


timer = Timer(1.0) 




















while True: 
if timer.done(): 
print ("Timer is done!") 
break 


通过 以 这 样 的 方式 实现 定时 器 ， 可 确保 执行 流程 绝 不 会 被 阻塞 , 因此 从 原则 上 说 ,可 在 这 个 
while 循环 中 执行 其 他 操作 。 


























(省 通过 使 用 循环 不 断 轮 询 来 等 待 事件 发 生 ， 这 通常 被 称 为 忙 等 待 (busy-waiting )。 





理想 情况 下 , 应 指定 一 个 在 定时 器 到 期 时 执行 的 自 定 义 函 数 , 就 像 chreading .Timer 中 那 
样 。 为 此 , 可 实现 方法 Timer .on_timer_done, 它 接受 一 个 要 在 定时 器 到 期 时 执行 的 回调 函数 。 
class Timer: 
# 以 前 的 代码 


def on timer_ done(self, callback): 
self.callback = callback 


请 注 意 ，on_tiner_aone 只 是 存储 了 一 个 指向 回调 醒 效 的 引用 ， 负 责 监 视 事件 并 执行 四 
函数 的 是 循环 。 下 面 来 演示 这 一 点 。 在 这 里 ,不 再 在 循环 中 使 用 函数 print ， 而 是 在 合适 的 情况 
下 调用 timer.callback。 




















timer = Timer(1.0) 
timer.on timer done(lambda: print ("Timer is done!")) 





while True: 
if timer.done(): 
timer.callback() 
break 


如 你 所 见 ， 一 个 异步 框架 的 雏形 已 经 形成 。 在 循环 外 面 ， 我 们 只 定义 了 定时 器 和 回调 函数 ， 
监视 定时 器 和 执行 回调 函数 的 工作 由 循环 负责 。 我 们 可 进一步 扩展 这 些 代 码 , 以 支持 多 个 定时 器 。 


为 实现 多 个 定时 器 ， 一 种 自然 而 然 的 方式 是 将 多 个 Timer 实例 添加 到 一 个 列表 中 ， 并 修改 
循环 ， 使 其 定期 地 检查 所 有 的 定时 器 ,并 在 必要 时 调用 回调 函数 。 在 下 面 的 代码 中 , 我 们 定义 了 
两 个 定时 器 ,并 将 每 个 定时 咒 都 关联 到 一 个 回调 函数 。 这 些 定时 器 被 添加 到 一 个 列表 (timers ) 
中 。 事件 循 环 不 断 地 监视 这 个 列表 , 一 旦 有 定时 器 到 期 ， 就 执行 相应 的 回调 函数 ， 并 将 该 定时 带 
从 列表 中 删除 。 


timers = [] 























timerl = Timer(1.0) 
timerl.on timer done(lambda: print ("First timer is done!")) 


timer2 = Timer (2.0) 
timer2.o0n timer _ done(lambda: print ("Second timer is done!")) 





timers.append (timer1) 
timers.append (timer2) 


while True: 
for timer in timers: 
if timer.done(): 
timer.callback () 
timers.remove (timer) 
# 如 果 列 表 中 没有 任何 定时 器 ， 就 退出 循环 
if len(timers) == 0: 
break 


事件 循环 的 主要 局 限 性 在 于 绝 不 能 使 用 阻塞 调用 ， 因 为 执行 流程 是 由 不 断 运行 的 循环 管理 
的 。 可 以 想见 ， 如 果 在 循环 中 使 用 了 阻塞 语句 (如 time.sleep )， 事件 监视 和 回调 函数 分 派 将 
停止 ， 直 到 阻塞 调用 完成 。 


为 避免 这 种 情况 发 生 ， 我 们 不 使 用 阻塞 调用 ( 如 time. sleep )， 而 是 让 事件 循环 负责 检测 
资源 是 否 已 就 绪 , 并 在 资源 就 绪 后 调用 回调 函数 。 通 过 避免 阻塞 执行 流程 事件 循环 可 同时 监视 
多 项 资源 。 






















































































事件 通知 通常 是 通过 操作 系统 调用 (如 Unix 工具 select ) 实现 的 ， 操 作 系 统 
调用 会 在 事件 就 绪 后 恢复 程序 执行 ， 而 不 是 忙 等待 。 
Python 标准 库 包 含 一 个 基于 事件 循环 的 并 发 框架 asyncio, 它 使 用 起 来 很 方便 , 这 将 在 
下 一 节 介 绍 。 





出 | 
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6.2 asyncio 框架 


此 , 你 应 对 并 发 的 工作 原理 以 及 如 何 使 用 回调 函数 和 future 有 了 深入 的 认识 ,可 以 接着 学 
习 如 何 使 用 asyncio 包 了 (从 Python 3.4 起 ，Python 标准 库 就 包含 这 个 包 )。 我 们 还 将 探索 全 新 
的 async/await 语法 ， 这 是 一 种 非常 自然 的 异步 编程 方式 。 


在 本 节 的 第 一 个 示例 中 ， 我 们 将 介绍 如 何 使 用 asyncio et ae 回调 函数 。 
要 获取 asyncio 循环 ， 可 调用 函数 asyncio.get_event_loop () 。 要 调度 回调 函数 ， 可 使 用 
loop.call_later， 它 接受 以 秒 为 单位 的 延迟 和 一 个 回调 冰 数 。 ee loop.stop 
来 停止 循环 并 退出 程序 。 要 开始 处 理 已 调度 的 调用 ， 必 须 启 动 循环 ,为 此 可 使 用 
loop.run_forever。 下 面 的 示例 演示 了 如 何 使 用 这 些 基 本 方法 , 它 调度 了 一 个 打印 消息 并 停止 
循环 的 回调 函数 。 






































import asyncio 
loop = asyncio.get_event_loop() 


def callback(): 
print ("Hello, asyncio") 
loop.stop() 


loop.call_later(1.0, callback) 
loop.run_ forever() 


6.2.1 协 程 


使 用 回调 函数 的 一 个 主要 问题 是 ， 必 须 将 程序 划分 成 在 特定 事件 发 生 时 将 被 调用 的 小 型 函 
数 。 正 如 你 在 本 章 前 面 看 到 的 ， 回 调 函 数 很 容易 变 得 非常 烦琐 。 


协 程 是 男 一 种 ( 可 能 更 自然 的 ) 将 程序 划分 成 小 块 的 方式 ， 让 程序 员 能 够 编写 看 起 来 像 同 
步 代 码 但 将 异步 执行 的 代码 。 可 将 协 程 视 为 可 停止 和 恢复 执行 的 函数 。 一 个 简单 的 协 程 示例 是 
生成 侨 。 


在 Python 中 ， 要 定义 生成 央 ， 可 在 函数 中 使 用 yiela 语句 。 在 下 面 的 示例 中 ， 我 们 实现 了 
函数 range_generator, 它 生成 并 返回 值 0 到 n。 我 们 还 添加 了 一 条 print 语句 , 以 显示 生成 
器 的 内 部 状态 。 


def range_generator (n): 
二 刘 
while i < n: 
print ("Generating value {}".format(i)) 
yield i 
三 于 
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当 你 调用 函数 range_generator 时 , 其 中 的 代码 并 不 会 立即 执行 。 请 注意 , 下 面 的 代码 执 
行 时 ， 什 么 都 没有 打印 ， 而 只 是 返回 一 个 generator 对 象 。 





generator = range_generator(3) 

generator 

# 结果 : 

# <generator object range_generator at 0x7f03e418pa40> 


要 从 生成 器 中 取 值 ， 必须 使 用 函数 next: 
next (generator) 
# 输出 : 


# Generating value 0 


next (generator) 





# 输出 : 
# Generating value 1 
请 注意 ， 每 当 我 们 调用 next 时 ， 都 将 运行 代码 ， 直 到 遇 到 yiela 语句 。 要 让 生成 器 接着 














往 下 执行 ,必须 再 次 调用 next。 你 可 将 yield 语句 视 为 一 个 断 点 ， 可 执行 到 这 里 停止 , 还 可 从 
这 里 开始 继续 执行 《同时 保持 生成 咒 的 内 部 状态 不 变 )。 可 在 事件 循环 中 利用 这 种 停止 和 继续 执 
行 功能 来 实现 并 发 。 


还 可 使 用 yiela 语句 将 值 注入 生成 器 〈 而 不 是 从 中 提取 值 )。 在 下 面 的 示例 中 ,我们 声明 了 
函数 parrot ， 它 重复 我 们 发 送 的 每 条 消息 。 要 让 生成 器 接收 值 ,可 将 yiela 赋 给 一 个 变量 (在 
这 里 ,使 用 的 是 语句 message = yield)。 要 将 值 搬入 生成 器 ， 可 使 用 方法 send。 在 Python 
中 ， 能 够 接收 值 的 生成 器 称 为 基于 生成 器 的 协 程 。 

def Parrot () : 

while True : 


message = yield 
print ("Parrot says: {}".format (message)) 
























































generator = parrot() 
generator.send (None) 
generator.send("Hello") 
generator.send ("World") 


请 注意 ， 开 始 发 送 消息 前 ， 必 须 调用 generator .send (None) ， 这 旨 在 将 函数 执行 到 第 一 
条 yield 语句 。 另 外 ,注意 函 数 parrot 中 有 一 个 无 限 循 环 ， 如 果 不 使 用 生成 器 ， 这 个 循环 将 
没完 没 了 地 执行 下 去 ! 


基于 前 面 的 介绍 ， 你 完全 可 以 想见 ， 事 件 循 环 可 让 多 个 生成 顺和 逐步 推进 ， 而 不 阻塞 整个 程 
序 的 执行 流程 。 你 还 可 以 想见 ， 生 成 器 可 仅 在 相关 资源 就 绪 时 才 往 前 推进 ， 从 而 不 需要 使 用 回 


在 asyncio 中 ， 可 使 用 yiela 语句 来 实现 协 程 ， 但 从 3.5 版 起 ，Python 支持 使 用 更 直观 的 
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语法 来 定义 功能 强大 的 协 程 。 
要 使 用 asyncio 来 定义 协 程 ， 可 使 用 语句 async def: 





async def hello() : 
print ("Hello, async!") 


coro = hello() 

coro 

# 输出 : 

# <coroutine object hello at 0x7f314846bd58> 

如 你 所 见 ， 调 用 函数 nello 时 ， 没 有 立即 执行 其 代码 ， 而 是 返回 了 一 个 coroutine 对 象 。 
asyncio 协 程 不 支持 next， 但 可 在 asyncio 事件 循环 中 轻松 地 运行 它们 ， 为 此 只 需 使 用 方法 


run_until_compblete 即 可 。 




















loop = asyncio.get_event_loop() 
loop.run until_complete (coro) 


0 使 用 async def 语句 定义 的 协 程 也 称 原生 协 程 。 


模块 asyncio 提供 了 资源 ( 被 称 为 awaitaple )， 你 可 在 协 程 中 使 用 await 语法 来 请 求 它 
们 。 例 如 ， 如 果 你 要 等 待 一 段 时 间 后 再 执行 语句 ， 可 使 用 函数 asyncio .sleep。 








async def wait_and_ print (msg): 
await asyncio.sleep(1) 
print ("Message: ", msg) 


loop.run until_ complete(wait_angd print ("Hello")) 


这 样 编写 出 来 的 代码 漂亮 而 整洁 。 我 们 根本 没有 使 用 丑陋 的 回调 函数 , 就 编写 出 了 功能 完美 
的 异步 代码 ! 





你 可 能 注意 到 了 ，await 给 事件 循环 提供 了 一 个 断 点 ， 因 此 在 等 待 资源 期 间 ， 
事件 循环 可 继续 管理 其 他 协 程 。 


锦上添花 的 是 ， 协 程 也 是 awaitable， 因 此 可 使 用 await 语句 将 协 程 异 步 地 串 接 起 来 。 在 
下 面 的 示例 中 , 我 们 重 写 了 本 章 前面 定 义 的 函数 network_request 将 time .sleep 替换 为 


asyncio.sleepo 








async def network_ request (number): 
await asyncio.sleep(1.0) 
return {"success": True, "result": number ** 2} 


接 下 来 , 可 重新 实现 fetch_sauare。 如 你 所 见 , 可 直接 等 待 ( await )network_request， 
而 不 需要 额外 的 fture 或 回调 函数 。 
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async def fetch square (number): 
response = await network_ request (number) 
if response["success"]: 
print ("Result is: {}".format (response["result"])) 


可 使 用 1oop .run_until_complete 分 别 运行 协 程 : 


loop.run until complete(fetch square(2)) 
loop.run until complete(fetch square(3)) 
loop.run until complete(fetch square(4)) 


对 测试 和 调试 来 说 ， 使 用 run_ until complete 来 运行 任务 很 好 ， 但 在 大 多 数 情况 下 ， 程 
序 都 将 首先 执行 loop .run_forever， 因 此 需要 在 循环 已 经 在 运行 的 情况 下 提交 任务 。 


asyncio 提供 了 也 数 ensure_future, 可 用 来 调度 协 程 (和 future )。 要 使 用 ensure_ 
future， 只 需 将 要 调度 的 协 程 传递 给 它 即 可 。 下 面 的 代码 调度 多 个 fetch_sauare 调用 ,这 些 
调用 将 并 发 地 执行 。 

asyncio.ensure_ future (fetch square(2)) 


asyncio.ensure_future(fetch square(3)) 
asyncio.ensure_future(fetch square(4)) 

















loop.run_forever() 
# 要 停止 循环 ， 可 按 Ctrl-C 


另外 ， 向 它 传 人 一 个 协 程 时 ， 函数 asyncio.ensure_future 将 返回 一 个 Task 实例 (Task 
是 Future 的 子 类 )， 这 让 我 们 既 能 使 用 await 语法 ， 又 能 利用 future 的 资源 跟踪 功能 。 


6.2.2 ”将 阻塞 代码 转换 为 非 阻塞 代码 


虽然 asyncio 支持 以 异步 方式 连接 到 资源 ， 但 在 有 些 情况 下 必须 使 用 阻塞 调用 ， 例 如 ,在 6 
第 三 方 API( 如 数据 库 访 问 库 ) 只 暴露 了 阻塞 调用 时 , 或 执行 长 时 间 运 行 的 计算 时 。 在 这 一 节 中 ， 
我 们 将 介绍 如 何 处 理 阻塞 API， 使 其 与 asyncio 兼容 。 

对 于 阻塞 代码 ， 一 种 有 效 的 处 理 策 略 是 在 一 个 独立 的 线程 中 运行 它们 。 线 程 是 在 操作 系统 
(OS ) 层级 实现 的 ， 人 允许 阻塞 代码 并 行 地 执行 。Python 提供 了 接口 Executor， 它 设计 用 于 在 独 
立 的 线程 中 运行 任务 ， 并 使 用 future 来 监视 任务 的 进度 。 

要 初始 化 ThreadPoolExecutor, 必须 先 从 模块 concurrent .futures 导入 它 。 这 种 执 
行 右 会 生成 一 系列 线程 ( 被 称 为 工作 线程 )， 这 些 线程 将 等 待 执 行 抛 给 它们 的 任何 任务 。 函 数 被 
提交 后 ， 执 行 器 将 负责 将 执行 它 的 工作 分 派 给 空闲 的 工作 线程 ， 并 跟踪 结果 。 要 指定 线程 数量 ， 
可 使 用 参数 max_workerso 

请 注意 ， 任 务 结束 后 ， 执 行 器 不 会 销毁 相应 的 线程 ， 这 样 可 降低 创建 和 销毁 线程 的 开销 。 


在 下 面 的 示例 中 ， 我 们 创建 了 一 个 包含 三 个 工作 线程 的 mhreadPoolExecutor， 并 提交 了 
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函数 wait_anq_return, 这 个 函数 将 程序 执行 流程 阻塞 1 秒 钟 , 并 返回 一 个 消息 字符 串 。 然后 ， 
我 们 使 用 方法 supmit 调用 这 个 函数 ， 将 其 交 给 线程 去 执行 。 








from concurrent.futures import ThreadPoolExecutor 
executor = ThreadPoolExecutor (max_workers=3) 


def wait_angd _ return (msd) : 
time.sleep (1) 
return msg 


executor.submit (wait_and_ return, "Hello. executor") 

# 结果 : 

# <Future at Ox7ff616ff6748 state=running> 

方法 executor .submit 立即 调度 这 个 函数 ， 并 返回 一 个 future。 在 asyncio 中 ， 可 使 用 
方法 loop .run_in_executor 来 管理 任务 的 执行 ， 这 个 方法 的 工作 原理 与 executor .submit 
很 像 。 


fut = loop.run_in executor (executor, wait_angd return, "Hello, asyncio 
executor") 
# <Future pending ...more info...> 


方法 run_in_executor 也 返回 一 个 asyncio.Future 实例 ， 你 可 在 其 他 代码 中 等 待 这 个 
实例 ; 主要 差别 在 于 ， 这 个 future 仅 在 我 们 启动 循环 后 才 会 运行 。 要 运行 它 并 获取 响应 ， 可 使 用 
loop.run until_ completeo 

loop.run until_complete (fut) 


# 结果 : 
# 'Hello, executor' 


作为 一 个 实例 ,我 们 可 使 用 这 种 技巧 同时 获取 多 个 网 页 。 为 此 ,我 们 导入 流行 的 (阻塞 ) 局 
requests, 并 在 执行 器 中 运行 函数 requests.geto 











th 





Tt 


import requests 


async def fetch urls(urls): 
responses = [] 
for url in urls: 
responses.append(await loop.run_ in executor 
(executor, requests.get, url)) 
return responses 


loop.run until_ completel(fetch ruls(['http://ww.google.com', 
'http://www.example.com', 
'http://www.facebook.com'])) 


这 个 版 本 的 fetch_urls 不 会 阻塞 执行 ， 允 许 asyncio 中 的 其 他 协 程 运行 , 但 它 并 不 是 最 
优 的 ， 因 为 它 不 会 并 行 地 获取 URL。 要 并 行 地 获取 URL， 可 使 用 asyncio.ensure_future， 
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也 可 使 用 便利 函数 asyncio .gather ( 它 一 次 性 提交 所 有 的 协 程 并 收集 到 来 的 结果 )。 下 面 演示 
了 asyncio.gather 用 法 。 


def fetch_urls(urls) : 
return asyncio.gather(*[loop.run_in executor 
(executor, requests.get, url) 


for url ‘in urLe]) 
使 用 这 个 方法 可 并 行 地 获取 的 URL 数量 取决 于 有 多 少 个 工作 线程 。 为 避免 这 种 
限制 ， 应 使 用 非 阻塞 原生 库 ， 如 aiohttp。 





6.3 ”响应 式 编程 
响应 式 编程 是 一 种 编程 范式 ,由 在 打造 更 出 色 的 并 发 系统 。 响 应 式 应 用 程序 符合 响应 式 宣言 
( reactive manifesto ) 规定 的 要 求 。 


























口 响应 速度 快 : 系统 迅速 地 响应 用 户 。 

口 伸缩 性 高 : 系统 能 够 处 理 不 同 水 平 的 负载 ， 并 能 够 适应 更 严 奇 的 需求 。 

口 富有 弹性 : 系统 能 够 妥善 地 应 对 故障 ， 这 是 通过 模块 化 以 及 避免 单 点 故障 实现 的 。 

口 消息 驱动 : 系统 不 应 阻塞 ,并 利用 事件 和 消息 。 消 息 驱 动 的 应 用 程序 有 助 于 满足 前 述 所 
如 你 所 见 ， 响 应 式 系统 目标 远大 ， 但 响应 式 编 

例 介 绍 响应 式 编 程 的 原理 。 






































程 到 底 是 如 何 工作 的 呢 ? 本 节 将 以 RxPy 库 为 


























ReactiveX 是 一 个 项 目 ， 实 现 了 用 于 众多 语言 的 响应 式 编程 工 具 ， 而 RxPy 是 其 


6.3.1 被 观察 者 
顾名思义 ,响应 式 编程 的 主要 理念 是 对 事件 做 出 响应 。 前 一 
这 种 理念 的 示例 : 注册 回调 函数 ， 使 其 在 事件 发 生 时 立即 执行 。 
响应 式 编程 扩展 了 这 种 理念 ， 它 将 事件 视 为 数据 流 。 为 证 明 这 一 点 ， 我 们 来 看 看 RxPy 中 一 
些 这 样 的 流 。 可 基于 迭代 器 来 创建 数据 流 ， 为 此 可 使 用 工厂 方法 observable.from_iterable， 
如 下 所 示 。 


from rx import Observable 
obs = Observable.from iterable(range(4)) 


要 接收 来 自 obs 的 数据 ,可 使 用 方法 Observapble .subscribe, 这 样 将 对 数据 源 发 射 (emit ) 
的 每 个 值 执行 传人 的 函数 。 


节 介 绍 了 一 些 使 用 回调 函数 实现 
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obs.subscribe (print) 
输出 : 
0 


井 井 井 井 井 
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你 可 能 注意 到 了 ， 被 观察 者 是 有 序 的 元 素 集合 ， 就 像 列表 ( 推 而 广 之 是 像 迭 代 器 ) 一 样 。 这 

并 非 巧 合 。 
术语 observable (被 观察 者 ) 由 observer (观察 者 ) 和 iterable ( 可 和 迭代 对 象 ) 组 
合 而 成 。 观 察 者 是 一 个 对 象 ， 在 其 观察 的 变量 发 生变 化 时 做 出 反应 ， 而 可 和 迭代 对 
象 能 够 生成 并 跟踪 迭代 器 。 

在 Python 中 ， 送 代 器 是 定义 了 方法 ”next 的 对 象 ， 你 可 通过 调用 next 来 提取 其 元 素 。 
迭代 器 通常 是 通过 对 集合 执行 iter 来 生成 的 。 生 成 迭代 器 后 ， 就 可 使 用 next 或 for 循环 来 提 
取 元 素 , 提取 迭代 右 中 的 一 个 元 素 后 , 就 不 能 回 过 头 去 再 提取 。 下 面 从 一 个 列表 创建 一 个 迭代 器 ， 
以 演示 迭代 需 的 用 法 。 


olLeCtion ESE: Ti8t( [BB;. 2 305 A 51) 
iterator = iter(collection) 






































print ("Next") 
print (next (iterator)) 
print (next (iterator)) 


print ("For loop") 
fOr Td in TCErator: 
print (i) 


井 非 非 非 大 大井 砷 
中 DPSS 
oO 各 警 
HH % 玫 
[a 
站 
oO 
oO 
Le 


从 这 个 示例 可 知 ， 每 当 我 们 调用 next 或 进行 迭代 时 ， 和 迭代 器 都 生成 一 个 值 并 前 进一步 。 从 
某 种 意义 上 说 ， 这 是 从 迭代 器 中 提取 结 
迭代 器 看 起 来 很 像 生成 器 ,但 更 通用 。 在 Python 中 ， 生 成 器 是 由 使 用 yield 表 
达 式 的 函数 返回 的 。 你 知道 ， 生 成 器 支持 next ， 因 此 是 一 种 特殊 的 迭代 器 。 
至 此 ， 你 明白 迭代 器 和 被 观察 者 的 异同 了 。 被 观察 者 准备 就 绪 后 向 我 们 推送 一 个 数据 流 ， 它 


还 能 够 在 出 现 错误 或 没有 更 多 数据 时 告诉 我 们 。 实 际 上 ， 可 使 用 方法 Observable.subscribe 
注册 其 他 回调 函数 。 在 下 面 的 示例 中 ， 我 们 创建 了 一 个 被 观察 者 ， 并 使 用 参数 on_next 和 
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on_completeq 注册 了 两 个 回调 函数 ,这 两 个 回调 函数 将 分 别 在 下 一 项 数据 可 用 以 及 没有 更 多 数 
据 时 被 调用 。 

obs = Observable.from iter (range(4)) 

obs.subscribe(on next=lambda x: print (on next="Next item: {}"), 

on_completed=lambda: print ("No more data")) 

输出 : 
Next element : 
Next element : 
Next element: 
Next element : 
No more data 


这 种 与 迭代 器 的 类 似 性 很 重要 ， 因 为 我 们 可 以 使 用 处 理 迭 代 器 的 方法 来 处 理事 件 流 。 


RxPy 提供 了 可 用 来 创建 、 变 换 和 过 滤 被 观察 者 以 及 对 其 进行 编组 的 运算 符 。 响 应 式 编程 的 
威力 在 于 , 这 些 操 作 返 回 其 他 被 观察 者 , 因此 可 将 它们 串 接 和 组 合 在 一 起 。 为 了 让 ， 
下 面 来 演示 take 运算 符 的 用 法 。 


给 定 一 个 被 观察 者 ，take 返回 一 个 新 的 被 观察 者 ， 但 这 个 被 观察 者 只 提供 前 n 个 元 素 。 这 
个 运算 符 的 用 法 非常 简单 。 


obs = Observable.from iterable(range(100000)) 
obs2 = obs.take(4) 


间 间 大 大 大 
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obs2.subscribe (print) 
输出 : 
0 
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RxPy 实现 了 丰富 而 多 样 的 运算 符 ， 你 可 使 用 它们 来 创建 复 
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6.3.2 ”很 有 用 的 运算 符 


本 市 将 探索 以 某 种 方式 对 源 被 观察 者 的 元 素 进行 变换 的 运算 符 。 在 这 个 运算 符 家 族 中 , 最 重 
要 的 成 员 是 map， 它 对 源 被 观察 者 的 元 素 执 行 指定 的 函数 ， 青 将 结果 发 射出 去 。 例 如 ， 可 使 用 
map 来 计算 一 系列 数字 的 平方 。 

(Observable.from iterable (range(4)) 


.map (lambda x: x**2) 
.Subscribe (print)) 
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可 使 用 弹 珠 图 (marble diagram ) 来 表示 运算 符 ， 这 可 帮助 我 们 更 好 地 理解 运算 符 的 工作 原 
理 ， 元 素 可 能 在 特定 时 间 区 域内 发 射出 去 时 尤其 如 此 。 在 弹 珠 图 中 , 实 线 表 示 数 据 流 (这 里 是 一 
个 被 观察 者 )， 圆 形 ( 或 其 他 形状 ) 表示 被 观察 者 发 射 的 值 ， 符 号 X 表 示 错 误 ， 而 垂直 线 表 示 数 
据 流 的 终点 。 


下 面 是 前 述 map 运算 符 的 弹 珠 图 。 


9_©@ © © 


map(lambda x: x**2) 


D_©@ © © 
源 被 观察 者 位 于 弹 珠 图 项 部 ， 中 间 是 变换 ， 而 底部 是 生成 的 被 观察 者 。 


另 一 个 变换 运算 符 group_py，, 它 根据 键 将 元 素 编组 。 运 算 符 group_by 接受 一 个 函数 ， 这 
个 函数 根据 提供 给 它 的 元 素 提取 键 , 并 为 每 个 键 生成 一 个 新 的 被 观察 者 ,其 中 包含 与 该 键 相 关联 
的 元 素 。 


使 用 弹 珠 图 可 将 group_py 操作 更 清晰 地 呈现 出 来 。 在 下 图 中 ,group_py 发 射 两 个 被 观察 
者 。 另 外 ， 元 素 被 发 射 后 ， 就 被 动态 地 编组 。 


9—@ © ©- 


groupby(lambda x: x % 2) 


ee 


为 了 深入 理解 group_py 的 工作 原理 , 来 看 一 个 简单 的 示例 。 假设 我 们 要 根据 数字 是 奇数 还 
是 偶数 对 其 进行 分 组 ， 为 此 可 使 用 group_by， 并 将 表达 式 lambda x:x % 2 作为 键 函 数 传递 
给 它 。 这 个 键 函数 在 数字 为 偶数 时 返回 0， 在 数字 为 奇数 时 返回 1。 


obs = (Observable.from range (range(4)) 
.group_by (lambda x: x %$ 2)) 













































































现在 ， 如 果 我 们 订阅 并 打印 obs 的 内 容 ， 将 打印 两 个 被 观察 者 。 
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obs.subscribe (print) 
# <rx.lingq.groupedobservable.GroupedObservable object at 0x7f0fpa51f9e8> 
# <rx.lingq.groupedobservable.GroupedObservable object at 0x7f0fpa51fa58> 


要 获悉 分 组 的 键 ， 可 使 用 属性 key。 要 提取 所 有 的 偶数 ， 可 使 用 take 运算 符 获取 第 一 





观察 者 ( 其 键 值 为 0) 并 订阅 它 ， 如 下 面 的 代码 所 示 。 


obs.subscribe(lambda x: 


# 输出 : 

# group key: 
# group Key : 
obs.take(1) 
# 输出 : 

# 0 

# 2 


0 
下 


.Subscribe(1larmbqa x: 


print ("group key: ", x.key)) 


x.subscribe (print)) 





个 被 





通过 使 用 group_by, 我 们 引入 了 发 射 其 他 被 观察 者 的 被 观察 者 。 在 响应 式 编程 中 ， 这 是 一 


种 常见 的 模式 。 还 有 一 些 函 数 能 


哆 合并 不 同 的 被 观察 者 。 





在 合并 被 观察 者 方面 ,两 个 很 有 用 的 工具 是 merge_all 和 concat_all。merge_all 接受 
多 个 被 观察 者 ， 并 生成 一 个 被 观察 者 ， 其 中 包含 接受 的 被 观察 者 中 的 所 有 元 素 ， 而 这 些 元 素 的 排 
列 顺序 与 发 射 顺序 相同 。 可 使 用 弹 珠 图 来 更 好 地 说 明 这 一 点 。 











ey 


D -| 














merge_all 类 似 于 concat_all, 但 后 者 返回 一 个 新 的 被 观察 者 ， 这 个 被 观察 者 先 发 射 第 一 


个 被 观察 者 中 的 元 素 ， 再 发 身 


AS 一 








二 个 被 观察 者 中 的 元 素 ， 以 此 类 推 


宛 





。concat_all 的 弹 珠 网 如 下 。 








-和 一 


BD- 


I 


0 





O09 








为 了 演示 这 两 个 运算 符 的 用 法 ， 我 们 将 它们 应 用 于 group_by 返回 的 被 观察 者 的 被 观察 者 。 
merge_all 将 按 元 素 的 初始 顺序 返回 它们 ( 别 忘 了 group_by 将 元 素 分 两 组 发 射 )。 
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obs.merge_all() .subscribe (print) 
输出 
0 


井 井 井 井 井 
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而 concat_all 先 返 回 偶数 元 素 ， 再 返回 奇数 元 素 ， 因 为 它 先 发 射 第 一 个 被 观察 者 中 的 元 
素 ， 发 射 完毕 后 再 发 射 第 二 个 被 观察 者 中 的 元 素 ,， 下面 的 代码 演示 了 这 一 点 。 在 这 个 示例 中 , 我 
们 还 使 用 了 函数 make_replay。 为 何 需 要 使 用 它 呢 ? 因为 使 用 完 “ 偶 数 ” 流 后 ， 第 二 个 流 中 的 
元 素 已 发 射 完毕 ，concat_all 无 法 使 用 它们 。 等 你 阅读 6.3.3 节 后 ， 将 会 深刻 地 理解 这 一 点 。 
def make _ replay (a): 
result = a.replay (None) 


result.connect () 
return result 








obs.map (make_replay) .concat_all() .subscribe (print) 
输出 
0 


井 井 井 井 井 


2 
于 
3 

















这 次 先 打 印 的 是 偶数 ， 打 印 完 偶数 后 才 打 印 奇数 。 


《人 RxPy 还 提供 了 操作 merge 和 concat， 你 可 使 用 它们 来 合并 独立 的 被 观察 者 。 


6.3.3 hot 被 观察 者 和 cold 被 观察 者 


前 一 节 介 绍 了 如 何 使 用 方法 observable.from_iterable 来 创建 被 观察 者 。 RxPy 提供 了 
很 多 其 他 的 工具 ， 可 用 来 创建 更 有 趣 的 事件 源 。 


Observable.interval 接受 一 个 以 毫秒 为 单位 的 时 间 段 (参数 periodq )， 并 创建 一 个 每 
隔 指定 时 间 就 发 射 一 个 值 的 被 观察 者 。 下 面 的 代码 行 创 建 一 个 被 观察 者 〈obs )， 这 个 被 观察 者 
从 零 开 始 每 秒 发 射 一 个 数字 。 我 们 使 用 了 运算 符 take 对 这 个 定时 器 进行 限制 ， 使 其 只 触发 4 个 
事件 。 

obs = Observable.interval(1000) 

obs.take(4) .subscribe (print) 


# 输出 : 
0 























井 井 井 井 


1 
2 
3 
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Observable.interval, 非常 重要 的 一 点 是 , 它 生 成 的 定时 器 在 订阅 后 才 会 启动 。 为 证 
明 这 一 点 ， 可 打印 索引 以 及 相对 于 定义 定时 需 时 的 延迟 ( 这 是 使 用 time .time () 计 算得 到 的 )， 








import time 


start = time.time() 
obs = Observable.interval (1000) .map (lambda a: 
(a, time.time() - start)) 
我 们 等 2 秒 后 再 订阅 
time.sleep (2) 
obs.take(4) .subscribe (print) 
输出 : 
(0, 3.003735303878784) 
( 4.004871129989624) 
(2, 5.005947589874268) 
(3, 6.00749135017395) 











如 你 所 见 ， 第 一 个 元 素 ( 对 应 于 索引 0 ) 是 在 3 秒 后 生成 的 ， 这 意味 着 这 个 定时 器 在 我 们 调 
用 方法 subscripbe (print) 后 才 启 动 。 





Observable.interval 生成 的 被 观察 者 被 称 为 惰性 〈1lazy ) 的 ， 因 为 它们 等 到 被 请 求 后 才 
开始 生成 值 (可 将 这 样 的 被 观察 者 视 为 自动 售卖 机 ， 仅 当 顾 客 按 下 按钮 后 才 吐出 商品 )。 用 Rx 
的 话说 ， 这 种 被 观察 者 是 cold 的 。cold 被 观察 者 的 一 个 特征 是 ， 如 果 将 其 关联 到 两 个 订阅 者 ， 
定时 器 将 启动 多 次 ， 这 一 点 在 下 面 的 示例 中 非常 明显 。 在 这 里 ， 我 们 在 第 一 次 订阅 0.5 秒 后 再 次 
订阅 。 如 你 所 见 ， 两 次 订阅 的 输出 时 间 是 不 同 的 : 

















start = time.time() 
obs = Observable.interval (1000) .map (lambda a: 
(a, time.time() - start)) 





我 们 等 2 秒 后 再 订阅 
time.sleep (2) 
obs.take(4) .subscribe(lambda x: print ("First subscriber: 


人 
time.sleep(0.5) 


obs.take(4) .subscribe(lambda x: print ("Second subscriber: 
ty" torinat(c))) 





输出 : 
First subscriber: (0, 3.0036110877990723) 
Second subscriber: (0, 3.5052847862243652) 
First subscriber: (1, 4.004414081573486) 
Second subscriber: (1, 4.506155252456665) 
First subscriber: (2, 5.005316972732544) 
Second subscriber: (2, 5.506817102432251) 
First subscriber: (3, 6.0062034130096436) 
Second subscriber: (3, 6.508296489715576) 
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在 有 些 情况 下 ， 这 种 行为 可 能 是 你 不 想 要 的 ， 因 为 你 希望 多 个 订阅 者 订阅 同一 个 数据 源 。 
要 让 被 观察 者 只 生成 一 份 数据 , 可 使 用 publish 来 延迟 数据 生成 , 确保 所 有 订阅 者 得 到 的 数据 





相同 。 




















publish 将 被 观察 者 转换 为 connectableobservable， 后 者 不 会 立即 推送 数据 ， 而 是 等 





到 你 调用 方法 connect 后 才 推送 数据 。 下 面 的 代码 演 


start = time.time!() 


obs = Observable.interval (1000) .map (lambda a: 


start)) .publish() 
obs.take(4) .subscribe(lambda x: print ("First 


Es 


obs .connect () # 现在 才 开 始 生 成 数据 


time.sleep (2) 








示 了 publish 和 connect 的 用 法 。 
(a, time.time() - 


subscriber: 
format (x) ) ) 


format (x) ) ) 


obs.take(4) .subscribe(lambda x: print ("Second subscriber: 
Cs 

# 输出 : 

# First subscriber: (0, 1.0016899108886719) 

# First subscriber: (1, 2.0027990341186523) 

# First subscriber: (2, 3.003532648086548) 

# Second subscriber: (2, 3.003532648086548) 

# First subscriber: (3, 4.004265308380127) 

# Second subscriber: (3, 4.004265308380127) 

# Second subscriber: (4, 5.005320310592651) 

# Second subscriber: (5, 6.005795240402222) 


在 这 个 示例 中 ,我 们 先 调用 方法 publisn, 再 关联 第 一 个 订阅 者 , 然后 调用 方法 connect。 
调用 方法 connect 后 ， 定 时 器 将 开始 生成 数据 。 第 二 个 订阅 者 后 加 入 ， 事 实 上 ， 它 没有 收 到 前 
两 条 消息 ,而 是 从 第 三 条 消息 开始 接收 。 注 意 ， 这 次 两 个 订阅 者 共享 同一 份 数 据 。 这 种 不 为 订阅 











者 分 别 生 成 数据 的 数据 源 被 称 为 是 hot 的 。 


你 还 可 使 用 类 似 于 publish 的 方法 replay， ee st 如 下 面 


的 示例 所 示 。 除 了 将 publish 替换 成 了 replay 外 ， 





import time 


start = time.time!() 


obs = Observable.interval (1000) .map (lambda a: 


start)).replay (None) 
obs.take(4) .subscribe(lambda x: print ("First 


CH 


obs .connect () 


time.sleep (2) 


个 示例 与 前 一 个 示例 相同 。 


(a, time.time() - 


subscriber: 
format (x) ) ) 


obs.take(4) .subscribe(lambda x: print ("Second subscriber: 


Cn 


First subscriber: (0, 1.0008857250213623) 


format (x) ) ) 
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First subscriber: (1, 2.0019824504852295) 
Second subscriber: (0, 1.0008857250213623) 
Second subscriber: (1, 2.0019824504852295) 
First subscriber: (2, 3.0030810832977295) 
Second subscriber: (2, 3.0030810832977295) 
First subscriber: (3, 4.004604816436768) 
Second subscriber: (3, 4.004604816436768) 


如 你 所 见 ， 这 次 虽然 第 二 个 订阅 者 后 加 入 ， 但 它 依然 获得 了 之 前 发 射 的 所 有 数据 。 


另 一 种 创建 hot 被 观察 者 的 方式 是 使 用 subject 类 。 这 个 类 很 有 趣 ， 既 能 接收 数据 ， 又 能 
推送 数据 ， 因 此 可 用 来 手动 将 数据 推送 给 被 观察 者 。subject 使 用 起 来 非常 简单 。 在 下 面 的 代 
码 中 , 我 们 创建 了 一 个 subject 并 订阅 它 , 然后 使 用 方法 on_next 向 它 推送 值 。 向 它 推 送 值 后 ， 
订阅 者 就 立即 被 调用 。 


= Subject () 

.subscribe(lambda a: print ("Subject emitted value: {}".format (x)) 
.on_next (1) 

Subject emitted value: 1 

.on_next (2) 
Subject emitted value: 2 








2 











井 m 井 mn mn 

















请 注意 ，subject 也 是 hot 被 观察 者 。 


6.3.4 打造 CPU 监视 器 


掌握 主要 的 响应 式 编程 概念 后 ， 就 可 实现 一 个 示例 应 用 程序 了 。 在 这 一 节 中 , 我 们 将 实现 一 
个 监视 器 ， 它 向 我 们 提供 有 关 CPU 使 用 率 的 实时 信息 ， 并 能 够 检测 出 使 用 率 峰值 。 

















0 这 个 CPU 监视 器 的 完整 代码 可 在 文件 cpu_monitor.py 中 找到 。 


首先 ， 我 们 来 实现 一 个 数据 源 。 我 们 将 使 用 模块 psutil， 它 提供 了 一 个 名 为 psutil. 
cpu_percent 的 函数 ， 这 个 函数 以 百分比 的 方式 返回 最 近 的 CPU 使 用 率 ( 且 不 阻塞 )。 








import psutil 
psutil.cpu_percent () 
# 结果 : 9.7 


由 于 我 们 要 开发 的 是 监视 器 ,因此 要 每 隔 一 段 时 间 采 集 一 次 这 种 信息 。 为 此 ， 可 像 前 一 节 那 
样 使 用 熟悉 的 observable.interval 和 map。 男 外 , 我们 还 要 让 这 个 被 观察 者 是 hot 的 ,因为 
对 这 个 应 用 程序 而 言 ， 所 有 订阅 者 收 到 的 应 该 是 同一 份 数据 。 为 让 opservable.interval 是 
hot 的 ， 可 使 用 方法 publish 和 connect。 创 建 被 观察 者 cpu_dqata 的 代码 如 下 : 


cpu_data = (Observable 
.interval(100) # 每 隔 100 毫秒 














.map (lambda x: psutil.cpu percent()) 
.publish()) 

cpu_data.connect () # 开始 生成 数据 

为 测试 这 个 监视 器 ， 可 打印 4 个 元 素 。 


cpu_data.take(4) .subscribe (print) 


井 间 间 提 大 
Un 


6 
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主 数据 源 就 绪 后 ， 就 可 使 用 matplot1lib 实现 监视 器 可 视 化 了 。 这 里 的 理念 是 ， 创 建 一 个 
图 表 ， 其 中 包含 的 数据 量 是 固定 的 ; 有 新 数据 到 来 后 ,就 在 图 表 中 包含 这 个 最 新 的 数据 ， 并 将 最 
旧 的 数据 删除 。 这 通常 被 称 为 移动 窗口 ， 可 通过 图 示 更 深入 地 认识 它 。 在 下 图 中 ， 数 据 流 
cpu_qdata 由 一 系列 数字 表示 。 获得 前 4 个 数字 后 , 就 绘制 第 一 个 图 表 , 而 每 当 有 新 数字 到 来 后 ， 
就 将 窗口 移动 一 个 位 置 ， 并 更 新 图 表 。 






























































为 实现 这 种 算法 ， 可 编写 一 个 函数 
数 所 做 的 工作 如 下 。 


口 初始 化 一 个 空 图 表 ， 并 设置 正确 的 坐标 轴 范 围 。 
口 对 被 观察 者 cpu_data 进行 变换 ， 以 返回 一 个 随 数据 移动 的 窗口 。 为 此 可 使 用 运算 符 
buffer_ with_count， 它 将 窗口 中 的 点 数 (npoints ) 作为 参数 ， 并 移动 一 个 位 置 。 

口 订阅 这 个 新 的 数据 流 ， 并 使 用 到 来 的 数据 更 新 图 表 。 


这 个 函数 的 完整 代码 如 下 所 示 。 如 你 所 见 ， 代 码 非常 紧凑 。 请 花 点 时 间 运 行 这 个 函数 ， 并 学 
试 使 用 不 同 的 参数 。 








monitor_cpu， 它 将 创建 并 更 新 绘图 窗口 。 这 个 函 




















import numpy as np 
from matplotlib import pyplot as plt 


def monitor_cpu (npoints): 
lnes) =it, DIot (Ly [Jy 
plt.xlim(0, npoints) 
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plt.ylim(0, 100) # 0% 到 100% 
cpu data window = cpu data.buffer with count (npoints, 1) 


def update plot (cpu_readings): 
lines.set xdata (np.arange (npoints)) 
lines.set ydatal(np.array (cpu_readings)) 
plt.draw!() 


cpu data window.subscribe(update plot) 
plt.show!() 
你 可 能 想 添 加 的 一 个 功能 是 ， 在 CPU 使 用 率 持续 高 企 一 定时 间 后 触发 警报 ， 因 为 这 可 能 昭 
示 着 计算 机 正在 做 艰难 的 处 理 。 为 此 ， 可 结合 使 用 buffer_with_count 和 map。 我 们 可 获取 
CPU 使 用 率 数据 流 和 一 个 窗口 ， 再 在 函数 map 中 检查 是 否 所 有 CPU 使 用 率 都 超过 20% ( 在 四 核 


CPU 中 ， 这 相当 于 单个 处 理 器 的 使 用 率 为 100% )。 如 果 窗 口中 所 有 点 的 值 都 超过 20%， 我 们 就 
在 图 表 窗 口中 显示 一 条 警告 消息 。 


这 个 新 的 被 观察 者 的 实现 如 下 。 它 在 CPU 使 用 率 持 续 高 企 时 发 射 True， 否 则 发 射 False。 
































alertpoints = 4 
high cpu = (cpu_ data 
.buffer with_count (alertpoints, 1) 
.map (lambda readings: all(r > 20 for r in readings))) 


被 观察 者 high_cpu 准备 就 绪 后 ， 就 可 创建 natplotlib 标签 ， 并 订阅 这 个 被 观察 者 以 更 
新 标签 了 。 
label = plt.text(1, 1, "normal") 
def update warning (is_high): 
if is high: 
label.set_ text ("high") 
else: 


label.set_text ("normal") 
high_cpu.subscribe (update warning) 


6.4 小 结 


在 需要 处 理 速 度 绥 慢 且 无 法 预测 的 资源 (如 IO 设备 和 网 络 ) 时 ， 异 步 编程 很 有 用。 本 章 探 
索 了 重要 的 并 发 和 异步 编程 概念 ， 并 介绍 了 如 何 使 用 asyncio 和 RxPy 库 来 编写 并 发 代码 。 

处 理 多 个 彼此 关联 的 资源 时 ，asyncio 协 程 是 极 佳 的 选择 ， 因 为 它们 巧妙 地 避 开 了 回调 函 
数 ， 从 而 极 大 地 简化 了 代码 逻辑 。 在 这 些 情形 下 ， 响 应 式 编 程 也 是 不 错 的 选择 , 但 它 真 正 擅长 的 
是 处 理 实时 应 用 程序 和 用 户 界面 中 常见 的 数据 流 。 


接 下 来 的 两 章 将 介绍 并 行 编程 ， 以 及 如 何 利 用 多 核 和 多 台 计 算 机 极 大 地 改善 性 能 。 



























































并 行 处 理 














通过 使 用 多 核 进行 并 行 处 理 , 无 须 速 度 更 快 的 处 理 器 , 就 可 让 程序 在 给 定时 间 内 执行 更 多 的 
计算 。 这 里 的 主要 理念 是 将 问题 划分 成 独立 的 子 单元 ， 并 使 用 多 个 内 核 并 行 地 处 理 这 些 子 单元 。 


对 处 理 大 型 问题 来 说 , 并行 处 理 必 不 可 少 。 公司 每 天 都 生成 海量 的 数据 , 需要 存储 在 多 台 计 
算 机 中 并 进行 分 析 。 科 学 家 和 工程 师 在 超级 计算 机 上 运行 并 行 代码 来 模拟 庞大 的 系统 。 


并 行 处 理 让 你 能 够 利用 多 核 CPU 以 及 擅长 处 理 高 度 并 行 问 题 的 GPU。 本 章 介 绍 如 下 主题 .: 


口 并 行 处 理 原 理 ; 

口 使 用 Python 库 multiprocessing 并 行 地 处 理 简 单 问题 ; 
口 使 用 简单 接口 processPoolExecutor; 
口 通过 Cython 和 OpenMP 使 用 多 线程 进行 并 行 编程 ; 
口 使 用 Theano 和 Tensorflow 自动 实现 并 行 性 ; 
口 使 用 Theano 、Tensorflow 和 Numba 在 GPU 中 执行 代码 。 






























































7.1 并 行 编程 简介 
要 让 程序 并 行 地 运行 ， 必 须 将 问题 划分 为 可 彼此 独立 (或 几乎 独立 ) 运行 的 子 单元 。 


如 有 果 一 个 问题 的 各 个 子 单元 是 完全 彼此 独立 的 ， 这 个 问题 就 是 高 度 并 行 的 (embarrassingly 
parallel )。 对 数组 的 各 个 元 素 分 别 执行 的 操作 就 是 一 个 典型 的 例子 一 一 这 种 操作 只 需 知道 当前 处 
理 的 元 素 。 另 一 个 例子 是 本 书 的 粒子 模拟 器 : 由 于 彼此 不 影响 ,每 个 粒子 都 是 独立 地 运动 的 。 对 
于 高 度 并 行 的 问题 ， 其 解决 方案 很 容易 实现 ， 在 并 行 架构 上 的 性 能 也 非常 高 。 

有 些 问题 可 划分 为 不 同 的 子 单元 ， 但 不 同 子 单元 涉及 的 计算 需要 共享 数据 。 在 这 种 情况 下 ， 
解决 方案 实现 起 来 不 那么 容易 ， 还 可 能 因为 通信 开销 带 来 性 能 问题 。 

我 们 将 通过 一 个 示例 来 演示 这 一 点 。 假 设 有 个 粒子 模拟 器 , 其 中 的 粒子 在 距离 位 于 特定 范围 
内 时 会 彼此 吸引 ,如 下 图 所 示 。 为 并 行 地 处 理 这 个 问题 ,我 们 将 模拟 箱 划 分 成 区 域 ,其 中 每 个 区 
域 都 由 一 个 不 同 的 处 理 器 来 负责 处 理 。 如 果 我 们 每 次 计算 一 步 , 有 些 粒子 将 与 邻接 区 域内 的 粒子 
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交互 。 为 完成 下 一 次 迭代 ， 相 邻 区 域 之 间 必 须 通 告 粒子 的 新 位 置 。 














2 3 4 








进程 间 通 信 的 开销 非常 高 ， 可 能 严重 影响 并 行程 序 的 性 能 。 在 并 行程 序 中 ,处 理 数据 通信 的 
方式 主要 有 两 种 : 


口 共享 内 存 
D 分 布 式 内 存 


在 共享 内 存 中 ,各 个 子 单元 可 访问 相同 的 内 存 空间 。 这 种 方法 的 优点 在 于 ,你 无 须 显 式 地 处 
理 通信 , 因为 只 需 读 写 共 享 内 存 就 够 了 。 然 而, 多 个 进程 试图 同时 访问 并 修改 相同 的 内 存单 元 时 ， 
将 出 现 问 题 。 因 此 ， 必 须 使 用 同步 技术 避免 这 样 的 冲突 。 


在 分 布 式 内 存 模 型 中 ,每 个 进程 都 与 其 他 进程 完全 分 开 , 并 有 自己 的 内 存 空间 。 在 这 种 情况 
下 ,必须 显 式 地 处 理 进 程 之 间 的 通信 。 与 共享 内 存 相 比 , 通信 开销 通常 更 高 ， 因 为 数据 可 能 穿 过 
网 络 接口 。 

以 共享 内 存 方式 实现 并 行 的 一 种 常见 方式 是 使 用 线程 。 线程 是 源 自 进程 的 独立 子 任务 , 并 共 
享 内 存 等 资源 。 下 图 进一步 说 明了 这 个 概念 。 线 程 生成 多 个 执行 上 下 文 并 共享 内 存 空 间 ， 而 进程 
提供 多 个 执行 上 下 文 ， 有 自己 的 内 存 空间 ， 因 此 必须 显 式 地 处 理 通信 。 
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Python 能 够 生成 并 处 理 线程 ， 但 使 用 线程 不 能 改善 性 能 。 由 于 Python 解释 顺 的 设计 ， 每 次 
只 能 运行 一 个 Python 指令 ,这 种 机 制 称 为 全 局 解释 器 锁 ( GIL )。 每 当 线 程 执行 Python 语句 时 ， 
都 获取 一 个 锁 ， 执 行 完 毕 后 ， 再 释放 这 个 锁 。 由 于 每 次 只 有 一 个 线程 能 够 获得 这 个 锁 ， 因 此 一 个 
线程 获得 这 个 锁 后 ， 其 他 线程 就 不 能 执行 Python 语句 。 

虽然 GIL 导致 Python 指令 无 法 并 行 执行 ， 但 在 可 释放 这 个 锁 的 情况 下 〈 如 在 耗 时 的 IO 操 
作 或 C 语 言 扩展 中 )， 依 然 可 使 用 线程 来 实现 并 发 。 




















为 何不 将 GIL 删除 呢 ? 过 去 几 年 ， 有 过 很 多 这 样 的 尝试 ， 其 中 包括 最 近 的 GIL 
切除 术 (gilectomy ) 实验 。 首 先 ， 要 删除 GIL 并 不 那么 容易 ， 必 须 修 改 大 部 分 

i Python 数据 结构 。 另 外 ， 细 粒度 的 锁定 可 能 代价 高 昂 , 还 可 能 导致 单线 程 程序 的 
性 能 急剧 下 降 。 虽 然 如 此 ， 有 些 Python 实现 就 没有 使 用 GIL， 其 中 最 著名 的 是 
Jython 和 IronPython。 


通过 使 用 进程 而 不 是 线程 ， 可 完全 避 开 GIL。 进 程 不 共享 内 存 区 域 , 而 且 是 彼此 独立 的 一 一 
每 个 进程 都 有 自己 的 解释 器 。 进 程 有 一 些 缺 点 : 启动 新 进程 通常 比 启动 新 线程 慢 ; 它们 消耗 的 内 
存 更 多 ; 进程 间 通 信 的 速度 可 能 很 慢 。 另 一 方面 ， 进 程 也 非常 灵活 ， 分 布 在 多 人 台 计 算 机 中 时 可 伸 
缩 性 更 佳 。 




















图 形 处 理 单元 


图 形 处 理 单元 是 特殊 的 处 理 器 , 是 为 运行 计算 机 图 形 学 应 用 程序 而 设计 的 。 这 些 应 用 程序 通 
常 需要 处 理 3D 场景 的 几何 结构 ， 并 将 像素 数组 输出 到 屏幕 上 。GPU 执行 的 操作 包括 浮 点 数 数组 
和 和 矩 阵 运 算 。 


GPU 就 是 为 高 效 地 运行 与 图 形 相关 的 操作 而 设计 的 ， 这 是 通过 采用 高 度 并 行 的 体系 结构 来 
实现 的 。 相 比 于 CPU，GPU 包含 的 小 型 处 理 单元 要 多 得 多 ( 数 干 个 )。GPU 以 每 秒 60 帧 的 速度 
生成 数据 ， 这 比 时 钟 速度 更 高 的 CPU 的 典型 响应 速度 慢 得 多 。 


GPU 专门 用 于 执行 浮 点 数 运算 ， 其 体系 结构 与 标准 CPU 有 天 壤 之 别 。 因 此 ， 要 编译 供 GPU 
运行 的 程序 ， 必 须 使 用 特殊 的 编程 平台 ， 如 CUDA 和 OpenCL 。 


统一 计算 设备 体系 结构 ( compute unified device architecture，CUDA ) 是 一 种 NVIDIA 专 
用 的 技术 ,提供 了 可 在 其 他 语言 中 访问 的 API。CUDA 提供 了 工具 NVCC， 可 用 来 编译 使 用 
CUDAC 语 言 (类 似 于 C ) 编写 的 GPU 程序 ; 它 还 提供 了 大 量 的 库 , 这 些 库 实现 了 高 度 优化 的 
数学 例 程 。 


OpenCL 是 一 种 开放 技术 , 使 用 它 编 写 的 并 行程 序 可 针对 各 种 目标 平台 (不 同 厂商 生产 的 CPU 
和 GPU ) 进行 编译 ， 因 此 对 非 NVIDIA 设备 来 说 ， 使 用 OpenCL 是 个 不 错 的 选择 。 
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GPU 编程 好 像 很 神奇 ， 但 你 千 万 不 要 因此 而 抛弃 CPU。GPU 编程 很 坏 手 ， 而 且 仅 在 特定 情 
况 下 你 才能 受益 于 GPU 体系 结构 。 程序 员 必 须 明 白 将 数据 写 人 内 存 以 及 从 内 存 读 取 数 据 的 成 本 ， 
还 必须 知道 如 何 实现 算法 以 充分 发 挥 GPU 体系 结构 的 作用 。 

一 般 而 言 ，GPU 可 极 大 地 提高 单位 时 间 内 可 执行 的 操作 数 ( 即 吞吐 量 )， 但 它们 需要 更 多 的 
时 间 来 准备 要 处 理 的 数据 。 相 反 ，CPU 从 头 开始 生 成 单个 结果 的 速度 要 快 得 多 ( 这 被 称 为 延 时 )。 

对 于 合适 的 问题 ， 使 用 GPU 可 极 大 地 提高 速度 (高达 10~100 倍 )， 因 此 ， 在 改善 数值 密集 
型 应 用 程序 的 性 能 方面 ，GPU 提供 了 极其 廉价 的 解决 方案 (要 实现 同样 的 速度 提升 ， 需 要 数 百 
个 CPU )。7.4 节 将 演示 如 何在 GPU 上 执行 一 些 算法 。 




















7.2 使 用 多 个 进程 


标准 模块 multiprocessing 可 用 来 生成 多 个 进程 ,以 快速 并 行 化 简单 任务 , 同时 避免 GIL 
问题 。 这 个 模块 的 接口 使 用 起 来 很 容易 ， 其 中 包含 多 个 处 理 任 务 提交 和 同步 的 实用 工具 。 





7.2.1 Process 和 Pool 类 


要 创建 独立 运行 的 进程 ， 可 从 multiprocessing.Process 派生 出 子 类 。 可 通过 扩展 方法 
__init 来 初始 化 资源 ， 还 可 通过 实现 方法 Process .run 来 编写 将 在 子 进程 中 执行 的 代码 。 
在 下 面 的 代码 中 ， 我 们 定义 了 一 个 Process 类 ， 它 等 待 1 秒 钟 再 打印 分 配给 自己 的 ia。 


import multiprocessing 
import time 




















class Process (multiprocessing.Process): 
def _ init_ _(self, igd): 
super (Process, self)._ init _() 
self.iqd = id 


def run(self): 
time.sleep(1) 
print ("I'm the process with id: {}".format (self.id)) 


要 生成 进程 ， 必 须 实例 化 Process 类 并 调用 方法 Process .start。 请 注意 ， 不 直接 调用 
Process.run, 而 是 调用 Process.start, 它 将 创建 一 个 新 进程 ， 进而 调用 方法 Process.runo 


要 创建 并 启动 新 进程 ， 可 在 上 述 代 码 片段 末尾 添加 如 下 代码 行 : 














让 下 marme == '_ main 
p = Process(0) 
p.start() 


Process.start 后 面 的 指令 将 立即 执行 ， 而 不 是 等 到 进程 p 结束 后 再 执行 。 要 等 待 任务 结 
束 ， 可 使 用 方法 Process .join， 如 下 所 示 。 





























江上 name == '_ main 
p = Process(0) 
p.start() 
p.join() 


我 们 可 启动 4 个 并 行 执行 的 进程 。 在 串 行 程序 中 ， 需 要 的 总 时 间 为 4 秒 ， 但 并 行 执行 时 ， 只 
需要 1 秒 。 在 下 面 的 代码 中 ， 我 们 创建 了 4 个 并 行 执行 的 进程 。 











尘 下 name hc at a 
processes = Process(1), Process(2), Process(3), Process (4) 
[p.start() for p in processes 








请 注意 , 并 行进 程 的 执行 顺序 是 无 法 预测 的 , 它们 以 什么 样 的 顺序 执行 取决 于 操作 系统 是 如 
何 调用 的 。 为 验证 这 一 点 , 你 可 执行 上 述 程序 多 次 。 你 将 发 现 每 次 运行 时 进程 的 执行 顺序 都 不 同 。 

模块 multiprocessing 暴露 了 一 个 便利 的 接口 ,让 你 能 够 轻松 地 给 驻 留 在 multiprocessing. 
Pool 类 中 的 进程 分 配 任务 o 

multiptrocessing.Pool 类 生成 一 组 进程 ( 称 为 工作 进程 )。 要 提交 任务 , 可 使 用 这 个 类 的 
方法 apply/apply_async 和 map/map_asynco 

方法 Pool .map 对 列表 中 的 每 个 元 素 执行 指定 的 函数 , 并 返回 一 个 包含 结果 的 列表 , 其 用 法 
与 内 置 ( 串 行 ) 师 数 map 相同 。 

要 使 用 并 行 映射 (map )， 必 须 先 初始 化 一 个 multiprocessing.Pool 对 象 。 它 将 工作 进程 数 
作为 第 一 个 参数 ; 如 果 没 有 指定 , 这 个 参数 将 为 系统 包含 的 内 核 数量 。 要 初始 化 multiprocessing. 
Pool 对 象 ， 可 像 下 面 这 样 做 : 


pool 
pool 


下 面 来 使 用 pool .map。 如 果 你 有 一 个 计算 平方 的 函数 ， 可 将 其 应 用 于 列表 ， 方法 是 调用 
Pool .map， 并 将 函数 和 输入 列表 作为 参数 传递 给 它 ， 如 下 所 示 。 


























multiprocessing.Pool() 
multiprocessing.Pool (processes=4) 





























def square (x): 
return x * x 


Guts = 0 2 3354] 
outputs = pool.map (square, inputs) 

















函数 Pool .map_async 与 Po01.map 相同 ， 但 返回 一 个 AsyncResult 对 象 ， 而 不 是 实际 
结果 。 我 们 调用 Pool .map 时 , 主 程序 将 停止 执行 ,直到 所 有 工作 进程 处 理 完毕 。 使 用 map_async 
时 , 将 立即 返回 一 个 AsyncResult 对 象 , 而 不 阻塞 主 程序 , 因此 计算 是 在 后 台 进 行 的 。 接 下 来 ， 
我 们 可 随时 使 用 方法 AsyncResult .get 来 获取 结果 ， 如 下 所 示 。 


outputs_async = pool.map_async (square, inputs) 
outputs = outputs_async.get() 
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Pool .apply_async 将 由 单个 函数 组 成 的 任务 分 配给 一 个 工作 进程 ， 它 将 这 个 函数 及 其 参 
数 作为 参数 ,并 返回 一 个 AsyncResult 对 象 。 可 使 用 apply_async 来 获得 类 似 于 使 用 map 的 
效果 ， 如 下 所 示 。 

results_async = [pool.apply_async (square, i) for i in range(100))] 


results = [r.get() for r in results_asyncl] 


7.2.2 接口 EBxecutor 


从 Python 3.2 起 ， 就 可 使 用 模块 concurrent .futures 中 的 接口 Executor 来 并 行 地 执行 
Python 代码 。 前 一 章 介绍 如 何 使 用 ThreadPoolExecutor 来 同时 执行 多 个 任务 时 , 你 见 过 接口 
EXeCUtOro 本 节 将 演示 ProcessPoolExecutor 类 的 用 法 。 














ProcessPoolExecutor 暴露 的 接口 非常 简单 ,至少 相 比 于 功能 强大 的 multiprocessing . 
Pool 来 说 如 此 。 实 例 化 ProcessPoolExecutor 的 方式 与 ThreadPoolEXxecutor 类 似 ， 只 需 
通过 参数 max_workers 传人 工作 线程 数量 即 可 ( 这 个 参数 默认 为 可 用 的 CPU 内 核 数 量 )。 


ProcessPoolExecutor 的 主要 方法 是 submit 和 mapo 


方法 submit 将 一 个 函数 作为 参数 ， 并 返回 一 个 Future ( 参见 前 一 章 ), 用 于 跟踪 提交 的 也 
数 的 执行 情况 。 方 法 map 类 似 于 函数 Poo1 .map， 但 返回 一 个 迭代 器 ， 而 不 是 一 个 列表 。 














from concurrent.futures import ProcessPoolExecutor 


executor = ProcessPoolExecutor (max_ workers=4) 
fut = executor.submit (square, 2) 
# 结果 : 


# <Future at Ox7f5b5c030940 state=running> 


result = executor.map(square, [0, 1, 2, 3, 4]) 

list(result) 

# 结果 : 

#3 [Oy Lae E90, 16 

要 从 一 个 或 多 个 Future 实例 中 提取 结果 ， 可 使 用 函数 COmCUTTent .futures .wait 和 
concurrent.futures.as_completed。 函数 wait 将 一 个 future 列表 作为 参数 ， 并 阻塞 程 
序 执行 ， 直 到 所 有 future 都 执行 完毕 。 然 后 ， 就 可 使 用 方法 Future .result 来 提取 结果 了 。 
函数 as_completed 也 将 一 个 函数 作为 参数 ， 但 返回 一 个 包含 结果 的 迭代 器 。 























from concurrent.futures import wait, as_completed 


fut1 = executor.submit (square, 2) 

fut2 = executor.submit (square, 3) 

wait([fut1l, fut2]) 

# 然后 就 可 使 用 fut1.result() 和 fut2.result() 来 提取 结果 了 


results = as_completed([futl, fut2]) 
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list(results) 
# 结果 : 
# [4, 9] 
另外 ， 你 可 使 用 函数 asyncio.run_in_executor 来 生成 future， 并 使 用 asyncio 库 提 供 
的 工具 和 语法 来 操作 结果 ， 这 样 可 同时 实现 并 发 和 并 行 。 

















7.2.3 ”使 用 蒙特 卡 洛 方法 计算 pi 的 近似 值 


作为 一 个 示例 ,我们 将 实现 一 个 高 度 并 行 的 程序 一 一 使 用 蒙特 卡 党 方法 计算 pi 的 近似 值 。 
假设 有 一 个 边 长 为 2 单位 的 正方 形 ， 其 面积 为 4。 接 下 来 ,我们 在 这 个 正方 形 内 雕刻 出 一 个 半径 
为 1 单位 的 圆 。 圆 的 面积 为 pixr。 将 x 的 值 代入 这 个 方程 ,将 得 到 这 个 圆 的 面积 : pix (1) =pi。 
有 关上 述 描述 的 图 形 表示 ， 请 参阅 下 图 。 

如 果 我 们 向 这 个 图 随机 地 射击 ， 有 些 子 弹 将 落 在 圆 内 ,我 们 称 之 为 打 中 了 ， 而 其 他 的 子弹 落 


在 圆 外 ， 即 没有 打 中 。 圆 的 面积 与 打 中 的 次 数 成 正比 ， 而 正方 形 的 面积 与 射击 次 数 成 正比 。 要 计 
算 pi 的 值 ， 只 需 将 圆 的 面积 (等 于 pi) 除 以 正方 形 的 面积 (等 于 4) 即 可 : 


























hits/total = area_ circle/area_ square = pi/4 
Bi :4 hits/total 














在 这 个 程序 中 ,我 们 将 采取 如 下 策略 : 
口 公分 布 的 随机 数 (x, y)， 这 些 随机 数 的 范围 为 -1, 1D); 
检查 这 些 数字 是 否 落 在 圆 内 ， 方 法 是 检查 x +y <1。 


编写 并 行程 序 时 ， 首 先 要 做 的 是 编写 串 行 版 本 ， 并 核实 它 能 够 正确 地 工作 。 在 实际 工作 中 ， 
应 将 并 行 化 作为 优化 过 程 的 最 后 一 步 。 首 先 ,我们 需要 找 出 运行 速度 缓慢 的 部 分 ; 其 次 ， 并 行 化 
是 项 耗 时 的 工作 ， 其 速度 提升 受制 于 处 理 器 数量 。 这 个 程序 的 串 行 版 本 的 实现 如 下 : 



























































import random 


samples = 1000000 
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for i in range(samples): 
= random.uniform(-1.0, 1.0) 
= random.uniform(-1.0 
i 雪 二 于 

hits += 1 


pi = 4.0 * hits/samples 





计算 结果 的 精度 随 样 本 数量 的 增加 而 提高 。 注 意 , 各 个 循环 选 代 是 彼此 独立 的 一 这 个 问题 
是 高 度 并 行 的 。 


sample， 它 对 应 于 单 次 是 否 击 中 的 检查 。 如 果 样 

















要 并 行 化 这 些 代 码 ， 可 编写 一 个 函数 


是 人 否则 返回 0。 通 过 运行 sample 多 次 ,并 将 其 返回 的 结果 累加 ， 





就 可 得 到 总 共 击 中 了 多 少 次 。 我 们 可 像 下 面 这 样 使 用 apply_async 在 多 个 进 此 程 中 运 云 行 sample 
并 获取 结果 。 


def sample() : 
X = random.uniform(-1.0, 1.0) 
y = random.uniform(-1.0, 1.0) 


让 所 和 和 类 2 证 尖 2 
return 1 

else: 
return 0 


pool = multiprocessing.Pool() 
results_async = [pool.apply_async (sample) for i in range(samples)] 
hits = sum(r.get() for r in results_async) 


可 将 这 两 个 版 本 分 别 放 在 函数 pi_serial 和 pi_apply_async 中 (这 些 函 数 的 实现 可 在 


文件 pipy 中 找到 )， 并 测量 它们 的 执行 速度 ， 如 下 所 示 。 


$ time Python -c 'import pi; pi.pi serial()' 


real 0m0.734s 
user 0m0 .731s 
SYS 0m0.004s 


$ time Python -c 'import pi; pi.pi apply async()' 
real 1m36.989s 
user lm55.984s 


SYS om50.386 
上 述 基准 测试 结果 表明 , 第 一 个 并 行 版 本 实际 上 降低 了 代码 的 执行 速度 。 这 是 因为 与 将 任务 


发 送 并 分 配给 工作 进程 的 开销 相 比 ， 执 行 计算 花费 的 时 间 很 短 。 


处 理 多 个 样本 ， ee ee 我 们 可 编写 个 sample_multiple 好 函数 ,， 它 执行 多 个 是 否 


要 解决 这 个 问题 ， 必 须 让 开销 相 比 于 计算 时 间 可 以 忽略 不 计 。 例 如 ,可 让 每 个 工作 进程 每 次 
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击 中 的 检查 ， 同 时 修改 当前 的 并 行 版 本 ， 将 问题 分 成 10 个 子 单元 ， 如 下 面 的 代码 所 示 。 


def sample multiple(samples_partial): 
return sum(sample() for i in range(samples_partial)) 


n_tasks = 10 
chunk_size = samples/n_ tasks 
pool = multiprocessing.Pool() 


results_async = [pool.apply_async (sample multiple, chunk_ size) 
for i in range(n tasks)] 
hits = sum(r.get() for r in results_async) 


我 们 可 将 这 些 代码 放 在 一 个 名 为 pi_apply_async_chunkeq 的 函数 中 ,再 运行 它 ,如 下 所 示 。 


$ time Python -c 'import pi; pi.pi apply async chunked()' 


real 0m0 .325s 
user 0m0.816s 
SYS om0 .008s 





结果 好 得 多 ， 我 们 将 程序 的 速度 提高 了 一 倍 多 。 另 外 ,注意 指标 user 大 于 real。 为 何 总 
CPU 时 间 会 大 于 总 时 间 呢 ? 因为 有 多 个 CPU 在 同时 工作 。 如 果 你 增 大 样本 数 ， 将 发 现 通信 时 间 
与 计算 时 间 的 比值 随 之 下 降 ， 速 度 得 到 了 进一步 的 提升 。 


高 度 并 行 的 问题 处 理 起 来 非常 简单 ， 但 在 有 些 情况 下 ， 必 须 在 进程 间 共 享 数据 。 


7.2.4 同步 和 锁 


虽然 multiprocessing 使 用 的 是 进程 (这些 进程 有 自己 的 内 存 区 域 )， 但 它 也 允许 你 将 变 
量 和 数组 定义 为 共享 内 存 。 要 定义 共享 变量 ， 可 使 用 multiprocessing.Value， 并 传人 一 个 
表示 变量 数据 类 型 的 字符 串 〈i 表示 整 型 ，q 表示 double，f 表示 float 等 )。 要 修改 这 种 变量 的 
内 容 ， 可 使 用 属性 value， 如 下 面 的 代码 所 示 。 


Sharedq_variable = multiprocessing.Value('f') 
shared_ variable.value = 0 


使 用 共享 内 存 时 ， 必 须 考 虑 同时 访问 的 问题 。 假 设 你 有 一 个 共享 的 整 型 变量 ， 而 每 个 进程 都 
将 其 值 递增 多 次 。 你 将 像 下 面 这 样 定义 一 个 进程 类 : 


class Process (multiprocessing.Process): 












































def _ init__(self, counter): 
super(Process, self)._ init _() 
self.counter = counter 


def run(self): 
for i in range(1000): 
self.counter.value += 1 


你 可 在 主 程序 中 初始 化 这 个 共享 变量 ， 并 将 其 传递 给 4 个 进程 ， 如 下 面 的 代码 所 示 。 


7.2 使 用 多 个 进程 133 





def main(): 
counter = multiprocessing.Value('i', lock=True) 
counter.value = 0 
processes = [Process(counter) for i in range(4)] 


[p.start() for p in processes] 
[p.join() for p in processes] # 进程 执行 完毕 
print (counter.value) 


如 果 你 运行 这 个 程序 ( 目录 code 中 的 shared.py )， 将 发 现 counter 的 最 终 值 不 是 4000， 而 


是 随机 的 〈 在 我 的 机 器 上 ， 为 2000~2500 )。 如 果 我 们 假定 算术 运算 正确 无 误 ， 就 可 确定 并 行 化 
存在 问题 。 


实际 发 生 的 情况 是 , 多 个 进程 同时 试图 访问 同一 个 共享 变量 。 为 搞 明 白 这 种 情况 , 请 看 下 图 。 
在 串 行 执 行 中 ， 第 一 个 进程 读 取 变 量 的 值 (数字 0 )， 将 其 加 1， 再 将 新 值 (1 ) 写 回 ; 第 二 个 变 
量 读 取 这 个 新 值 (1 )， 将 其 加 1， 并 将 结果 (2 ) 写 回 。 

在 并 行 执行 中 ， 两 个 进程 同时 读 取 ( 0 )， 将 其 加 1， 再 将 结果 (1 ) 写 回 ， 导 臻 最 终 的 答案 
不 正确 。 

































































串 行 counter 并 行 counter 











要 解决 这 个 问题 , 需要 同步 对 这 个 变量 的 访问 , 确保 每 次 只 有 一 个 进程 访问 该 变量 、 将 其 值 
加 1 并 写 回 。multiprocessing.Lock 类 提供 了 这 种 功能 。 要 获取 和 释放 锁 ， 可 分 别 使 用 方法 
acquire 和 release， 也 可 将 锁 用 作 上 下 文 管理 器 。 由 于 每 次 只 有 一 个 进程 能 够 获取 锁 ， 这 种 

方法 可 防止 多 个 进程 同时 执行 受 保护 的 代码 部 分 。 


我 们 可 定义 一 个 全 局 锁 ， 并 将 其 用 作 上 下 文 管理 器 ， 以 限制 对 变量 counter 的 访问 ， 如 下 
面 的 代码 所 示 。 














lock = multiprocessing.Lock() 
Class Process (multiprocessing.Process): 


def _ init__(self, counter): 
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super(Process, self)._ init _() 
self.counter = counter 


def run(self): 
for i in range(1000): 
with lock: # 获取 锁 
self.counter.value += 1 


# 释放 锁 
诸如 锁 等 同步 元 语 对 解决 众多 问题 来 说 必 不 可 少 ,但 应 尽 可 能 少 使 用 ， 以 改善 程序 的 性 能 。 


模块 multiprocessing 还 提供 了 其 他 通信 和 同步 工具 ， 详 情 请 参阅 官方 文档 
(http:/docs.python.org/3/library/multiprocessing.html )。 


7.3 使 用 OpenMP 编写 并 行 的 Cython 代码 

Cython 通过 OpenMP 提供 了 一 个 便利 的 接口 ， 让 你 能 够 实现 共享 内 存 式 并 行 处 理 。 这 让 你 
能 够 直接 使 用 Cython 编写 效率 极 高 的 并 行 代码 ， 而 无 须 创 建 C 语言 包装 器 。 

OpenMP 是 一 个 规范 兼 API， 设 计 用 于 编写 多 线程 并 行程 序 。OpenMP 规范 包括 一 系列 C 语 


言 预 处 理 吉 指令 ， 用 于 管理 线程 以 及 提供 通信 模式 、 负 载 均 衡 和 其 他 同步 功能 。 包 括 GCC 在 内 
的 多 个 C/C++ 和 Fortran 编译 右 都 实现 了 OpenMP API。 



















































































下 面 通过 一 个 简单 的 示例 来 介绍 Cython 并 行 功能 。Cython 通过 模块 cython .parallel 提 
供 了 一 个 基于 OpenMP 的 简单 API。 要 实现 并 行 ， 最 简单 的 方式 是 使 用 prange， 这 是 一 个 自动 
将 循环 操作 分 配给 多 个 线程 的 结构 。 


首先 , 我 们 编写 一 个 程序 的 串 行 版 本 , 这 个 程序 计算 一 个 NumPy 数组 中 每 个 元 素 的 平方 ( 参 
见 文件 hello_parallel.pyx )。 我 们 定义 了 一 个 函数 square_serial, 它 将 一 个 缓冲 区 ( buffer ) 
作为 输入 ， 并 使 用 这 个 输入 数组 中 各 个 元 素 的 平方 填充 一 个 输出 数组 ， 如 下 面 的 代码 所 示 。 

















import numpy as np 


def square_ serial (double[:] inp): 
cdef int i, size 
cdef double[:] out 
size = inp.shape[0] 
out_np = np.empty (size, 'double') 
out = out_np 


for i in range(size): 
out[i] = inp[i]*inp[i] 


return out_np 


对 于 这 个 遍历 数组 元 素 的 循环 ， 要 实现 其 并 行 版 本 ， 需 要 将 所 有 的 rang 调用 都 替换 为 
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prange。 需 要 注意 的 是 ， 要 使 用 brange， 必 须 确保 循环 体 不 使 用 解释 器 。 前 面 说 过 ， 我 们 需要 
释放 GIL， 而 解释 器 调用 通常 会 获取 GIL， 因 此 要 使 用 线程 ， 必 须 避 免 解释 器 调用 。 


在 Cython 中 ， 要 释放 GIL， 可 使 用 上 下 文 nogil， 如 下 所 示 。 








with nogil: 
for i in prange (size): 
Out [i] “1nD 人 li]*inB[L] 


也 可 使 用 prange 选项 nogil=True， 这 将 自动 将 循环 体 放 在 一 个 nogil 块 中 。 


for i in prange(size, nogil=True): 
SUt [Le LnD[LL]EnpLL] 


在 prange 块 中 试图 调用 Python 代码 将 引发 错误 。 禁止 的 操作 包括 函数 调用 、 对 象 初始 化 等 。 
要 人 允许 在 prange 块 中 执行 这 些 操 作 (这 可 能 是 为 了 调试 )， 必 须 使 用 gil 语句 重新 启用 GIL。 

















for i in prange(size, nogil=True): 
out[il] SS Lip[i |]*inpl[t] 
with gil: 
x = 0 # Python 赋值 


现在 可 以 将 这 些 代码 作为 Python 扩展 模块 进行 编译 ,以 便 测试 它们 。 要 启用 OpenMP 支持 ， 
必须 修改 文件 setup.py， 在 其 中 包含 编译 选项 -fopenmp。 为 此 ， 可 使 用 aistutils 中 的 
distutils.extension.Extension 类 , 并 将 它 传递 给 cythonize。 下面 是 完整 的 setup.py 文 件 。 





from distutils.core import setup 
from distutils.extension import Extension 
from Cython.Build import cythonize 


hello parallel = Extension('hello parallel', 
['hello_parallel .pyx'], 
extra_compile _ args=['-fopenmp'], 
extra_link args=['-fopenmp']) 


setupl 
name='Hello', 
ext_modules = cythonize(['cevolve.pyx', hello parallel]), 


) 


通过 使 用 prange, 可 轻松 地 并 行 化 Cython 版 的 Particlesimulator。 下面 的 代码 包含 和 
4 章 编写 的 Cython 模块 cevolve .pyx 中 的 国 数 c_evolve。 





roy 





def c_evolve(double[:, :] r_i,double[:] ang_speed i, 
double timestep,int nsteps): 


# cdef 上 声明 
for i In range(nsteps): 


for j in range (nparticles) : 


# 循环 体 
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首先 ， 反 转 循环 的 顺序 ， 让 外 面 的 循环 并 行 地 执行 ( 迭代 之 间 彼 此 独立 )。 由 于 粒子 之 间 没 
有 交互 ， 因 此 修改 迭代 顺序 不 会 有 任何 问题 ， 如 下 面 的 代码 所 示 。 


for j in range (nparticles): 
for i in range (nsteps): 


# 循环 体 


接 下 来 ， 将 外 部 循环 中 的 range 调用 替换 为 brange， 并 将 获取 GIL 的 调用 删除 。 由 于 已 
经 使 用 静态 类 型 改进 了 代码 ， 因 此 可 安全 地 使 用 nogil 选项 ， 如 下 所 示 。 


























for j in prange (nparticles, nogil=True) 


现在 可 以 将 这 些 函 数 包装 到 函数 benchmark 中 ， 以 便 对 它们 进行 比较 并 评估 性 能 方面 的 改 
进 了 。 

In [3]: Stimeit benchmark(10000, 'openmp') # Running on 4 processors 

1 loops, best of 3: 599 ms per loop 


In [4]: Stimeit benchmark (10000, 'cython') 
1 loops, best of 3: 1.35 s per loop 


有 趣 的 是 ， 通 过 使 用 prange 编写 一 个 并 行 版 本 ， 获 得 了 两 倍 的 速度 提升 。 




















7.4 并 行 自 动 化 


前 面 说 过 ， 常 规 Python 程序 因 GIL 无 法 实现 线程 并 行 化 。 到 目前 为 止 ， 我 们 都 是 使 用 独立 
的 进程 来 避 开 这 种 问题 ， 但 相 比 于 启动 线程 ， 启 动 进程 需要 的 时 间 和 内 存 要 多 得 多 。 

我 们 还 看 到 , 通过 避 开 Python 环境 , 我 们 将 原本 就 很 快 的 Cython 代码 的 速度 又 提高 了 两 倍 。 
这 种 策略 可 实现 轻 量 级 的 并 行 , 但 多 了 一 个 额外 的 编译 步 又。 本 节 将 通过 特殊 库 进 一 步 探索 这 种 
策略 ， 这 些 特 殊 库 能 够 将 代码 自动 转换 为 并 行 版 本 ， 从 而 高 效 地 执行 。 

当前 , 实现 了 并 行 自 动 化 的 包 包括 你 熟悉 的 JIT 编译 器 numexpr 和 Numba。 还 有 一 些 包 能 够 
自动 优化 和 并 行 化 数组 和 和 矩阵 密集 型 表达 式 , 它们 对 数值 计算 和 机 器 学 习 应 用 程序 来 说 至 关 重 要 。 

Theano 是 一 个 项 目 ， 让 你 能 够 定义 包含 数组 的 数学 表达 式 〈 更 笼统 地 说 就 是 张 量 )， 并 将 它 
们 编译 成 快速 语言 ,如 C 或 C++。Theano 实现 的 很 多 操作 都 是 可 并 行 化 的 , 并 可 在 CPU 和 GPU 
中 运行 。 

Tensorflow 是 一 个 类 似 于 Theano 的 库 ， 也 是 为 计算 数组 密集 型 数学 表达 式 而 设计 的 ， 但 不 
会 将 表达 式 转换 为 特殊 的 C 语 言 代码 ， 而 是 在 高 效 的 C++ 引擎 中 执行 操作 。 


在 要 解决 的 问题 可 用 一 串 和 矩阵 和 基于 元 素 的 运算 ( 如 神经 网 络 ) 表示 时 ，Theano 和 Tensorflow 
都 是 理想 的 选择 。 
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7.4.1 Theano 初步 


Theano 有 点 像 编 译 器 , 但 还 能 表示 、 操 作 和 优化 数学 表达 式 ， 同 时 能 够 在 CPU 和 GPU 中 运 
行 代码 。 从 2010 年 起 ，Theano 就 一 直 在 不 断 推出 改进 版 本 ， 并 被 其 他 几 个 Python 项 目 用 来 自动 
生成 高 效 的 计算 模型 。 

在 Theano 中 ， 首 先 需 要 定义 要 运行 的 函数 ， 方 法 是 使 用 一 个 纯粹 的 Python API 来 指定 变量 
和 变换 。 然 后 ， 这 些 定 义 将 被 编译 成 机 器 码 进 行 执行 。 

在 本 节 的 第 一 个 示例 中 ， 我 们 将 探索 如 何 实现 一 个 计算 平方 的 函数 。 我 们 用 一 个 标量 变量 (a ) 
表示 输入 ， 再 进行 变换 以 获得 其 平方 值 (用 a_sa 表示 )。 在 下 面 的 代码 中 ， 我 们 使 用 也 数 
T.scalar 定义 这 个 变量 ， 并 使 用 常规 运算 符 ** 来 获得 一 个 新 变量 。 














import theano.tensor as T 

import theano as th 

a 三 

= 

print (a_sq) 

# 输出 : 

# Elemwise{pow,no_inplace}.0 

如 你 所 见 , 没有 计算 具体 的 值 ， 执 行 的 变换 是 纯粹 的 符号 。 要 使 用 这 个 变换 ,需要 生成 一 个 
函数 。 为 此 ， 可 使 用 实用 工具 th. function， 它 接受 两 个 参数 ， 分 别 是 输入 变量 列表 和 输出 变 
换 (这 里 是 a_sa )。 

compute_square = th.function([a], a_sq) 

Theano 将 花 时 间 将 这 个 表达 式 转换 为 高 效 的 C 语言 代码 ， 并 对 代码 进行 编译 ， 而 所 有 这 些 
操作 都 是 在 幕后 进行 的 ! th. function 的 返回 值 是 一 个 可 直接 使 用 的 Python 函数 ， 下 面 的 代码 
演示 了 如 何 使 用 这 个 返回 的 函数 。 







































































compute_square (2) 
4.0 


compute_square 正确 地 返回 了 输入 值 的 平方 , 这 没什么 可 奇怪 的 。 然 而 , 注意 返回 的 值 并 
不 是 整数 (与 输入 类 型 一 样 ), 而 是 浮 点 数 。 这 是 因为 在 Theano 中 , 变量 的 类 型 默认 为 float64。 
要 验证 这 一 点 ， 可 查看 变量 a 的 stype 属性 。 


























/ 





a.dtype 
# 结果 : 
# float64 


相 比 于 Numba，Theano 的 行为 有 天 壤 之 别 。Theano 不 会 编译 通用 的 Python 代码 ， 也 不 做 任 
何 类 型 推断 ; 定义 Theano 因数 时 ， 必 须 准 确 地 指定 类 型 。 


Theano 真正 的 威力 在 于 它 对 数组 表达 式 的 支持 。 要 定义 一 维 向 量 ， 可 使 用 函数 T.vector， 
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它 返 回 的 变量 支持 广播 操作 ， 就 像 NumPy 数组 一 样 。 例 如 ， 我 们 可 计算 两 个 向 量 对 应 元 素 的 平 
方 和 ， 如 下 所 示 。 


a T.vector('a') 

le T.vector('b') 

ab 80 = HR**2 .FD**2 

compute_square = th.function([a, b], ab_sq) 


compute_square([0, 1, 2], [3, 4, 5]) 
# 结果 : 
# :rray (ll 9 Ly 9 


这 里 的 理念 是 将 Theano API 作 为 一 种 微型 语言 ， 用 来 合并 各 种 Numpy 数组 表达 式 ， 这 样 将 
生成 高 效 的 机 器 码 。 


Theano 的 一 个 卖点 是 能 够 简化 算法 和 自动 计算 梯度 ， 更 详细 的 信息 请 参阅 官方 
文档 ( http://deeplearning.net/software/theano/introduction.html )。 














为 通过 一 个 熟悉 的 用 例 来 演示 Theano 的 功能 ， 我 们 再 次 来 并 行 地 计算 pi 的 近似 值 。 这 个 函数 
将 两 组 随机 坐标 作为 输入 ， 并 返回 pi 的 近似 值 。 对 于 输入 的 随机 数 ， 我 们 将 其 定义 为 向 量 x 和 y。 
为 检查 它们 是 否 在 圆 内 ， 我 们 使 用 基于 元 素 的 标准 操作 ， 并 将 这 个 表达 式 存储 在 变量 hit_test 中 。 


T.vector('x') 
T.vector('y') 





























hit test = XX ** F244Y ** 2 < 1 


现在 需要 计算 hit_test 中 值 为 True 的 元 素 个 数 , 为 此 可 计算 hit_test 的 所 有 元 素 的 和 
(将 隐 式 把 元 素 的 值 转换 为 整数 )。 要 计算 pi 的 近似 值 ， 需 要 计算 击 中 次 数 和 射击 次 数 的 比值 。 
需要 执行 的 计算 如 下 面 的 代码 所 示 。 

hits = hit_ test.sum() 


total = X.Shape[0] 
Dl_eSt. 三 不 大 ,hits/total 


为 测量 这 种 Theano 实现 的 执行 时 间 , 可 使 用 th. function 和 模块 timeit。 在 这 里 的 测试 
中 ,我 们 传人 两 个 长 度 为 30 000 的 数组 ,并 使 用 timeit .timeit 多 次 执行 函数 calculate_pi。 














calculate_pi = th.function([x, y], pi_est) 


np.random.uniform( 
np.random.uniform( 


x_val 
y_val 


1, 30000) 
1, 30000) 


= > 
= 二 全， 
import timeit 

res = timeit.timeit ("calculate pi(x _ val, y_val)", 

"from _ main _ import X val, y_val, calculate pi", number=100000) 
print (res) 

# 输出 : 

# 10.905971487998613 
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串 行 执行 这 个 函数 时 ,花费 了 大 约 10 秒 的 时 间 。Theano 能 够 自动 并 行 化 代码 一 一 使 用 OpenMP 
和 BLAS ( Basic Linear Algebra Subprograms ) 线性 代数 例 程 等 专用 包 实 现 基于 元 素 的 操作 和 和 矩 阵 
操作 。 要 启用 并 行 执行 ， 可 使 用 配置 选项 。 


在 Theano 中 ， 要 设置 配置 选项 ,可 在 导入 时 修改 对 象 theano .config 中 变量 的 值 ,例如 ， 
要 启用 OpenMP 支持 ， 可 执行 如 下 命令 : 














Import theano 
theano .config.openmp = True 
theano.config.openmp elemwise minsize = 10 


与 OpenMP 相关 的 参数 如 下 。 
D openmp_elemwise minsize: 这 是 一 个 整数 ， 表示 仅 当 数组 长 度 超过 多 少时 ， 才 对 基 
于 元 素 的 操作 启用 并 行 化 (数组 太 小 时 ， 并 行 化 的 开销 可 能 降低 性 能 )。 
口 openmp: 这 是 一 个 布尔 标志 ， 决 定 是 否 激活 OpenMP 编译 ( 默认 应 激活 )。 
要 控制 分 配给 OpenMP 执行 的 线程 数 ， 可 在 执行 代码 前 设置 环境 变量 OMP_NUM_THREADS。 
现在 可 编写 一 个 简单 的 基准 测试 程序 , 来 演示 如 何 使 用 OpenMP。 我 们 将 pi 值 估 算 示 例 的 代 
人 码 放 在 文件 test_theano.py 中 。 























ie ee 









































# 文件 : test_theano .py 

import numpy as np 

import theano.tensor as T 

import theano as th 
th.config.openmp_elemwise minsize = 1000 
th.config.openmp = True 


工 .Vector ( ) 


又 
T.vector('y') 


yy 


hit. test Ss x 2 1 
hits = hit_test.sum() 

misses = X.Shape[0] 

pi_est = 4 * hits/misses 





calculate_pi = th.function([x, y], pi_est) 
XxX_val = np.random.uniform(-1, 1, 30000) 
y_val = np.random.uniform(-1, 1, 30000) 


import timeit 

res = timeit.timeit ("calculate pi(x _ val, y_val)", 
"from _ main _ import x_val, y_val, 
calculate_pi", number=100000) 

print (res) 


现在 可 从 命令 行 运行 这 些 代码 ， 并 通过 设置 环境 变量 来 增加 线程 数 ， 以 评估 其 可 伸缩 性 。 





2 
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$ OMP_ NUM THREADS=1 python test_ theano.py 

10.905971487998613 

$ OMP_ NUM THREADS=2 Python test_theano.py 

7.538279129999864 

$ OMP_ NUM THREADS=3 python test_ theano.py 

9.405846934998408 

$ OMP_ NUM THREADS=4 python test_ theano.py 

14.634153957000308 

有 趣 的 是 ， 使 用 两 个 线程 时 ， 性 能 有 小 幅 的 提升 ， 但 再 增加 线程 数 时 ， 性 能 急剧 下 降 。 这 意 
味 着 就 这 里 的 输入 规模 而 言 , 使 用 两 个 以 上 的 线程 没有 任何 好 处 ,因为 启动 新 线程 和 同步 其 共享 
数据 的 代价 比 并 行 计算 带 来 的 好 处 大 。 


要 获得 良好 的 并 行 性 能 需要 一 定 的 技巧 ， 因 为 这 取决 于 具体 的 操作 以 及 它们 访问 底层 数据 
的 方式 。 一 般 而 言 ， 对 并 行程 序 的 性 能 进行 测量 至 关 重 要 ， 而 要 获得 大 幅 的 速度 提升 ， 需 要 反 
复试 验 。 


例如 ， 只 要 稍微 修改 一 下 代码 ,并行 性 能 就 会 急剧 下 降 。 前 面 检查 是 否 击 中 时 ,我 们 直接 使 
用 了 方法 sum， 这 依赖 于 布尔 数组 nit_tests 的 隐 式 转换 。 如 果 我 们 执行 显 式 转换 ，Theano 生 
成 的 代码 将 稍微 不 同 ， 导 致 多 线程 带 来 的 好 处 更 小 。 可 修改 文件 test_theano.py 来 验证 这 一 点 : 

# 旧版 本 

# hits = hit_test.sum() 

hits = hit test.astype('int32').sum() 

如 果 你 再 次 运行 基准 测试 程序 , 将 发 现 线程 的 多 少 对 运行 时 间 没 有 太 大 的 影响 , 但 相 比 于 原 
来 的 版 本 ， 速 度 得 到 了 极 大 的 提高 。 
OMP_NUM_THREADS=1 python test_theano.py 
.822126664999814 
OMP_NUM THREADS=2 python test_ theano.py 
.697357518001809 
OMP_NUM THREADS=3 python test_ theano.py 
.636914656002773 


OMP_ NUM THREADS=4 python test_ theano.py 
.764030176000233 


剖析 Theano 代码 


鉴于 性 能 测量 和 分 析 的 重要 性 ，Theano 提供 了 功能 强大 且 信 息 丰 富 的 剖析 工具 。 要 生成 剖 
析 数 据 ， 只 需 给 th .function 添加 选项 profile=True 即 可 。 
















































































WUT DAT 














calculate_pi = th.function([x, y], pi_est, profile=True) 


剖析 器 将 在 函数 运行 时 收集 数据 ( 如 通过 timeit 或 直接 调用 )。 要 打印 剖析 摘要 ， 可 执行 


命令 summary， 如 下 所 示 。 




















calculate_pi.profile.summary () 


7.4 并 行 自动 化 141 





为 生成 剖析 数据 , 我 们 在 脚本 中 添加 选项 brofile=True,， 并 再 次 运行 它 (在 这 里 ,我们 将 
环境 变量 OMP_NUM_THREADS 设置 为 1 )。 另 外 ， 我 们 还 将 这 个 脚本 恢复 到 隐 式 转换 hit_tests 
的 版 本 。 





外 你 也 可 使 用 选项 config.profile 全 局 地 设置 剖析 。 





calculate_pi.profile.summary() 打 印 的 输出 很 长 , 包含 大 量 的 信息 , 下 面 是 其 中 的 一 
部 分 。 输 出 由 包含 时 间 信息 的 三 部 分 组 成 , 依次 为 class、ops 和 Apply。 这 里 将 重点 放 在 ops 
部 分 ; Ops 大 致 相当 于 编译 后 的 Theano 代码 中 使 用 的 函数 。 如 你 所 见 ， 大 约 80% 的 时 间 都 花 在 
计算 两 个 数 的 平方 和 上 ， 而 其 他 时 间 花 在 计算 元 素 的 和 上 。 


Function profiling 





Message: test_theano.py:15 


. Other output 
Time in 100000 calls to Function. call : 1.015549e+01s 
. Other output 


Class 
<%$ time> <sum %> <apply time> <time Per call> <type> <#call> <#apply> 
<Class name> 

. timing info by class 


Ops 


< 多 time> <sum %> <apply time> <time Per call> <type> <#call> <#apply> <Op 





name> 
80.0% 80.0% 6.722s 6.72e-05s C 100000 1 
Elemwise{Composite{LT((sqr(i0) + sqr(i1)), i2)}} 
19.4% 99.4% 1.634s 1.63e-05s C 100000 J 
Sum{acc_dtype=int64} 
0.3% 99 .8g 0.027s 2.66e-07s C 100000 1 
Elemwise{Composite{((i0 * i1) / i2)}} 
0.2% 100.0% 0.020s 2.03e-07s [@: 100000 1 
Shape_i{0} 
(remaining 0 Ops account for 0.00%(0.00s) of the runtime) 
Apply 


< 多 time> <sum %> <apply time> <time Per call> <#call> <id> <Apply name> 
. timing info by apply 


这 与 我 们 在 第 一 个 基准 测试 程序 中 发 现 的 情况 一 致 。 使 用 两 个 线程 时 ， 代 码 的 执行 时 间 从 
11 秒 缩短 到 大 约 8 秒 。 根 据 这 些 数字 ， 可 分 析 时 间 都 花 在 了 什么 地 方 。 


在 这 11 秒 中 ，80% (大 约 8.8 秒 ) 花 在 执行 基于 元 素 的 操作 上 。 这 意味 着 在 完美 的 并 行 条 件 
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下 ,使 用 两 个 线程 时 时 间 将 缩短 4.4 秒 ， 即 从 理论 上 说 ， 此 时 的 执行 时 间 将 为 6.6 秒 。 考 虑 到 实 
际 测量 到 的 执行 时 间 大 约 为 8 秒 ， 看 起 来 使 用 线程 会 带 来 一 些 额外 开销 (1.4 秒 )。 








7.4.2 Tensorflow 


Tensorflow 也 是 一 个 设计 用 于 快速 执行 数值 计算 和 并 行 自 动 化 的 库 ， 这 是 Google 于 2015 年 
发 布 的 开源 项 目 。Tensorflow 像 Theano 那样 创建 数学 表达 式 ， 但 不 将 表达 式 编译 成 机 器 码 ， 而 
是 在 使 用 C++ 编写 的 外 部 引擎 中 执行 它们 。Tensorflow 支持 在 一 个 或 多 个 CPU 和 GPU 中 执行 和 
部 署 并 行 代码 。 

Tensorflow 的 用 法 与 Theano 很 像 。 要 在 Tensorflow 中 创建 变量 , 可 使 用 函数 tf .placeholger， 
它 将 一 个 数据 类 型 作为 输入 。 


import tensorflow as tf 

































































a = tf.placeholder('float64') 


在 Tensorflow 中 ， 定 义 数学 表达 式 的 方式 与 Theano 很 像 ， 但 命名 约定 有 些 不 同 ， 对 NumPy 
语义 的 支持 也 更 有 限 。 

Tensorflow 不 像 Theano 那样 将 函数 编译 成 C 语言 代码 ， 再 编译 成 机 器 码 ， 而 是 将 定义 的 数 
学 函数 序列 化 (包含 变量 和 变换 的 数据 结构 被 称 为 计算 图 )， 再 在 特定 的 设备 上 执行 它们 。 要 本 
置 设 备 和 上 下 文 ， 可 使 用 tf.session 对 象 。 


定义 所 需 的 表达 式 后 ， 需 要 初始 化 tf.session， 这 种 对 象 可 用 来 执行 计算 图 (使 用 方法 
session.run)。 下面 的 示例 演示 了 如 何 使 用 Tensorflow API 来 计算 相应 元 素 的 平方 和 。 


















































a = tf.placeholder('float64') 
b = tf.placeholder('float64') 
ab. Sd = Hw. 二 D2 


with tf.Session() as session: 
result = session.run(ab_sq, feed dict={a: [0, 1, 2], 


print (result) 
# 输出 : 
# LEay (TL 9 9; 
在 Tensorflow 中 ， 并行 化 是 由 其 智能 执行 引擎 自动 实现 的 ; 通常 ， 无 须 做 很 大 的 调整 ， 自 动 
实现 的 并 行 化 的 效果 就 很 好 。 然 而 ，Tensorflow 最 适合 处 理 深度 学 习 人 负载 ， 这 种 负载 包含 复杂 函 
数 的 定义 ， 即 使 用 大 量 的 矩阵 乘法 以 及 计算 梯度 。 


下 面 使 用 Tensorflow 再 次 实现 产值 估算 示例 ， 测 量 其 执行 速度 和 并 行 性 ， 并 与 Theano 实现 
进行 比较 。 我 们 需要 做 的 工作 如 下 。 
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threads 初始 化 一 个 
数 。 请 注意 ， 











我 们 编写 








import tensorflow as tf 
import numpy as np 
import time 

import sys 





NUM_THREADS = int (sys.argv[1]) 


samples = 30000 





口 定义 变量 x 和 y， 并 使 用 广播 操作 检查 是 否 击 中 。 

口 使 用 函数 tf .reduce_sum 计算 数组 nit_tests 的 元 素 的 和 。 

口 使 用 配置 选项 inter_op_ parallelism threads 和 intra op_parallelism_ 
Session 对 象 ,这 些 选项 指定 用 于 执行 不 同类 型 的 并 行 操作 的 线程 
创建 第 一 个 session 对 象 时 ,使 用 的 这 些 选项 为 整个 脚本 ( 包括 后 面 的 
Session 实例 ) 设置 线程 数 。 


个 名 为 test_tensorflow.py 的 脚本 ， 它 包含 如 下 代码 。 请 注意 ， 线 程 数 是 由 传递 给 
这 个 脚本 的 第 一 个 参数 ( sys .argv[11] 














) 指定 的 。 


Print('Num threads', NUM_ THREADS) 


x_data = np.random.uniform(-1, 


y_data = np.random.uniform(- 


x = tf.placeholder('float64', 
y = tf.placeholder('float64', 





1, samples) 
1, samples) 


name='x') 
name='y') 


it testes 0 


i 和 电 直 


with tf.Session 
(config=tf.ConfigProto 


.reduce_sum(tf.cast (hit_tests, 


"nt32.)) 


(inter_op_parallelism threads=NUM_ THREADS, 
intra_op_parallelism threads=NUM THREADS)) as sess: 





start = time.time() 

for i in range(10000): 
sess.run(hits, {x: x_data, 

print (time.time() - start) 


如 果 运 行 这 


文 个 脚本 多 次 , 并 在 每 次 都 给 NUM_THREADS 指 


ve -data}) 


定 不 同 的 值 , 将 发 现 性 能 与 Theano 





实现 差别 不 大 ， 且 并 行 化 带 来 的 性 能 提升 很 有 限 。 


$ python test tensorflow.py 1 


13.059704780578613 


$ python test tensorflow.py 2 


11.938535928726196 


$ python test tensorflow.py 3 


12.783955574035645 


$ python test tensorflow.py 4 


12.158143043518066 
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使 用 诸如 Tensorflow 和 Theano 软件 包 的 主要 优点 是 ， 它 们 支持 并 行 地 执行 机 器 学 习 算法 中 
常用 的 和 矩阵 操作 。 这 很 管用 ， 因 为 在 GPU 硬件 上 执行 时 ， 这 些 操作 的 性 能 将 得 到 极 大 的 提升 ， 
原因 是 GPU 能 够 以 极 高 的 否 吐 量 执行 这 些 操 作 。 











7.4.3 在 GPU 中 运行 代码 


本 节 将 演示 如 何 将 GPU 同 Theano 和 Tensorflow 结合 起 来 使 用 。 作 为 示例 , 我 们 将 测量 一 个 
非常 简单 的 矩阵 乘法 在 GPU 上 的 执行 时 间 ， 并 将 其 与 在 CPU 上 的 执行 时 间 进 行 比较 。 





要 完成 本 节 的 示例 ， 你 需要 有 GPU。 就 学 习 而 言 ， 可 使 用 Amazon EC2 服务 请 
求 一 个 支持 GPU 的 实例 。 


下 面 的 代码 使 用 Theano 执行 一 个 简单 的 矩阵 乘法 运算 。 我 们 使 用 函数 .matrix 初始 化 一 
个 二 维 数组 ， 然 后 使 用 方法 T.det 执行 矩阵 乘法 。 














from theano import function, config 
import theano.tensor as T 

import numpy as np 

import time 


N= 5000 


A_data 
B_data 


= np.random.rand(N, N) .astype('float32') 
= np.random.rand(N, N) .astype('float32') 
A 


T.matrix('A') 
B B 


T.matrix('B') 


f SS Fuetion(ta. Bl Tdot (A BY 


start = time.time!() 
f(A_ data, B_data) 


print ("Matrix multiply ({}) took {} seconds".format (N, time.time() - 
start)) 
print ('Device used:', config.device) 


要 让 Theano 在 GPU 上 执行 这 些 代码 ， 可 设置 选项 config .device=gpu。 出 于 方便 考虑 ， 
可 在 命令 行使 用 环境 变量 THEANO_FLAGS 设置 这 个 配置 值 ， 如 下 所 示 。 将 上 述 代码 保存 到 文件 
test_theano_matmul.py 中 ， 然 后 就 可 使 用 下 面 的 命令 来 测量 执行 时 间 了 。 





$ THEANO FLAGS=device=gpu Python test theano gpu.py 
Matrix multiply (5000) took 0.4182612895965576 seconds 
Device used: gpu 


要 在 CPU 上 运行 这 些 代码 ， 可 使 用 配置 选项 device=cpu。 
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$ THEANO FLAGS=device=cpu python test theano.py 
Matrix multiply (5000) took 2.9623231887817383 seconds 
Device used: cpu 


如 你 所 见 ， 就 这 个 示例 而 言 ， 在 GPU 上 运行 时 ， 速 度 比 在 CPU 上 运行 时 快 72 售 ! 








为 进行 比较 ， 可 对 使 用 Tensorflow 实现 的 等 效 代 码 进行 基准 测试 。Tensorflow 版 本 的 实现 如 


下 面 的 代码 片段 所 示 。 相 比 于 Theano 版 本 ， 主 要 不 同 如 下 : 





口 使 用 配置 管理 器 tf .device 来 指定 目标 设备 ( /cpu:0 或 /gpu:0 ); 
口 使 用 运算 符 tf .matmul 来 执行 矩阵 乘法 。 





import tensorflow as tf 
import time 

import numpy as np 

机 -三 :中 00 


np.random.rand (N, N) 
np.random.rand (N, N) 


A_data = 
B_data = 


# 创建 一 个 图 


with tf.device('/gpu:0'): 


A = tf.placeholder('float32') 
B= tf.placeholder('float32") 
C= tf.matmul (A, B) 


with tf.Session() as sess: 
start = time.time() 
sess.run(C, {A: A data, B: B_data}) 
print ('Matrix multiply ({}) took: {}'.format (N, time.time() - 
start)) 


如 果 使 用 合适 的 tf .device 选项 运行 脚本 test_tensorflow_matmul.py ,将 得 到 如 下 执行 时 间 。 





# 使 用 tf.device('/gpu:0') 运 行 
Matrix multiply (5000) took: 1.417285680770874 


# 使 用 tf.device('/cpu:0') 运 行 
Matrix multiply (5000) took: 2.9646761417388916 


如 你 所 见 ， 就 这 个 简单 示例 而 言 ， 在 GPU 上 运行 时 性 能 得 到 了 极 大 的 提升 ( 但 没有 Theano 


版 本 那么 大 )。 





要 使 用 GPU 来 自动 执行 计算 , 男 一 种 方式 是 使 用 你 现在 应 该 很 熟悉 的 Numba。 使 用 Numba 














可 将 Python 代码 编译 成 可 在 GPU 上 运行 的 程序 。 这 种 灵活 性 让 你 能 够 使 用 简单 接口 完成 高 级 
GPU 编程 ， 具 体 地 说 ，Numba 能 够 让 你 非常 轻松 地 编写 支持 GPU 的 泛 型 通用 函数 。 


























在 下 面 的 示例 中 , 我 们 将 演示 如 何 编 写 一 个 通用 函数 , 它 对 两 个 数字 执行 指数 函数 并 将 结果 








相 加 。 第 5 章 说 过 , 这 可 使 用 函数 nb.vectorize 来 实现 (我 们 还 显 式 地 将 目标 设备 指定 为 CPU )。 
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import numba as nb 
import math 
@nb.vectorize (target='cpu') 
def expon_cpu(x, y): 
return math.exp(x) + math.exp(y) 


要 编译 通用 函数 expon_cpu， 以 便 在 GPU 设备 上 运行 ， 可 使 用 选项 target='cuda'。 男 
外 ， 对 于 CUDA 通用 水 数 ， 还 必须 输入 类 型 。expon_gpu 的 实现 如 下 : 


@npb.vectorize(['float32 (float32, float32)'], target='cuda') 
def expon_ gpu(x, y): 
return math.exp(x) + math.exp(y) 


现在 可 以 对 这 两 个 函数 进 和 0 将 它们 应 用 于 两 个 长 度 为 1 000 000 的 数组 。 另 外 
请 注意 ,测量 执行 时 间 前 ， 我 们 先 调用 一 次 函数 ， 以 触发 Numba 即时 编译 。 





























import numpy as np 
import time 


N= 1000000 
Leer er TO0 


np.random.rand(N) .astype('float32') 
np.random.rand(N) .astype('float32') 


a = 
pb = 
# 触发 编译 

expon_cpu(a, b) 
expon_gpu(a, b) 


# 测量 时 间 

start = time.time!() 

for i in range (niter): 
expon_cpu l(a, b) 

print ("CPU:", time.time() - start) 


start = time.time!() 

for i in range (niter): 
expon_gpu (a, b) 

print ("GPU:", time.time() - start) 
# 输出 : 

# CPU: 2.4762887954711914 

# GPU: 0.8668839931488037 


在 GPU 上 执行 时 ， 速 度 比 在 CPU 上 执行 时 提高 了 3 倍 。 请 注意 ， 将 数据 传输 给 GPU 的 开 
销 非常 高 ， 因 此 仅 当 数组 非常 大 时 ， 在 GPU 上 执行 才 有 优势 。 














7.5 ”小结 


对 大 型 数据 集 来 说 , 并 行 处 理 是 一 种 改善 性 能 的 有 效 方式 。 高 度 并 行 的 问题 非常 适合 采用 并 
行 处 理 ; 对 于 这 种 问题 ， 实 现 并 行 处 理 很 容易 ， 同 时 性 能 可 得 到 极 大 的 提升 。 





由 








下 
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本 章 介绍 了 Python 并 行 编程 的 基础 知识 。 你 学 习 了 如 何 使 用 Python 标准 库 中 的 工具 来 生成 
进程 ， 以 避 开 Python 线程 技术 的 局 限 性 ， 还 学 习 了 如 何 使 用 Cython 和 OpenMP 来 实现 多 线程 
程序 。 

对 于 更 复杂 的 问题 ， 你 学 习 了 如 何 使 用 Theano、Tensorflow 和 Numba 包 来 自动 编译 数组 密 
集 型 表达 式 ， 以 便 在 CPU 和 GPU 设备 上 并 行 地 执行 。 


下 一 章 将 介绍 如 何 使 用 Dask 和 PySpark 等 库 编写 在 多 个 处 理 器 和 计算 机 上 执行 的 并 行程 序 。 












































分 布 式 处 理 








前 一 章 介 绍 了 并 行 处 理 的 概念 以 及 如 何 利用 多 核 处 理 器 和 GPU ， 现 在 我 们 再 进一步 ， 将 注 
意 力 转向 分 布 式 处 理 一 一 通过 在 多 台 计 算 机 中 执行 任务 来 解决 问题 。 


本 章 将 阐述 在 计算 机 集群 中 运行 代码 的 挑战 、 用 例 和 示例 。Python 提供 了 易于 使 用 且 可 靠 的 
分 布 式 处 理 包 ， 让 我 们 能 够 轻松 地 实现 可 伸缩 的 容错 代码 。 


本 章 介 绍 如 下 主题 : 


口 分 布 式 计算 和 MapReduce 模型 ; 

口 Dask 有 向 无 环 图 ; 

口 使 用 Dask 数 组 、Bag 和 DataFrame 编写 并 行 代码 ; 
口 使 用 Dask distributed 实现 分 布 式 并 行 算法 ; 

口 PySpark 简介 ; 

口 Spark 弹性 分 布 式 数据 集 和 DataFrame; 

口 使 用 mpi4py 执行 科学 计算 。 
























































8.1 分 布 式 计算 简介 

如 今 , 计算机、 智能 手机 等 设备 在 人 们 的 生活 中 已 不 可 或 缺 。 每 天 都 有 海量 的 数据 生成 。 数 
十 亿 人 访问 互联 网 上 的 服务 ， 而 公司 不 间断 地 收集 数据 ,以 便 了 解 用 户 ,进而 提供 更 有 针对 性 的 
产品 和 更 佳 的 用 户 体验 。 

为 处 理 越 来 越 多 的 数据 , 我 们 面临 着 严峻 的 挑战 。 大 型 公司 和 组 织 常 常 打造 计算 机 集群 ， 以 
便 存 储 、 处 理 和 分 析 复 杂 的 大 型 数据 集 。 在 环境 科学 和 医疗 保健 等 数据 密集 型 领域 ， 也 会 生成 类 
似 的 数据 集 。 最 近 ， 这 些 大 型 数据 集 被 称 为 大 数据 。 大 数据 分 析 方法 通常 涉及 机 器 学 习 、 信 息 检 
索 和 可 视 化 。 


计算 集群 在 科学 计算 领域 已 使 用 几 十 年 , 这 些 领域 的 复杂 问题 研究 必须 使 用 在 高 性 能 分 布 式 
系统 中 运行 的 并 行 算法 。 为 支持 这 样 的 应 用 程序 , 高 校 和 其 他 组 织 提 供 并 管理 着 用 于 研究 和 工程 
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方面 的 超级 计算 机 。 运行 在 超级 计算 机 上 的 应 用 程序 通常 专注 于 数值 计算 密集 型 工作 负载 , 如 蛋 
日 质 和 分 子 模拟 、 量 子 力学 计算 、 气 候 模 型 等 。 


只 要 想 一 想 将 数据 和 计算 任务 分 布 到 计算 机 局 域 网 后 通信 开销 的 增加 情况 , 分 布 式 系统 编程 
面临 的 挑战 就 显而易见 。 相 比 于 处 理 器 的 速度 ， 网 络 传输 的 速度 慢 如 蜗牛 ,因此 使 用 分 布 式 处 理 
时 ,， 尽 可 能 减少 网 络 通信 显得 更 加 重要 。 为 此 ， 可 采用 多 种 不 同 的 策略 ， 它 们 优先 考虑 本 地 数据 
处 理 ， 不 到 万 不 得 已 不 传输 数据 。 


分 布 式 处 理 面 临 的 男 一 个 挑战 是 , 计算 机 网 络 通常 是 不 可 靠 的 。 考虑 到 计算 集群 可 能 包含 数 
千 台 计算 机 ， 从 概率 上 说 ,显然 经 常会 有 节点 出 现 故 障 。 有 鉴于 此 , 分 布 式 系 统 必须 能 够 妥善 地 
处 理 节 点 故障 ， 避 免 中 断 当 前 执行 的 工作 。 所 幸 各 公司 投入 了 大 量 资源 来 开发 容错 分 布 式 引 擎 ， 
它们 能 够 自动 处 理 前 述 方方面面 。 




















































































































MapReduce 简介 


MapReduce 是 一 个 编程 模型 ,让 你 能 够 以 特定 的 方式 表示 算法 , 使 其 能 够 在 分 布 式 系统 中 高 
效 地 执行 。MapReduce 模型 最 初 是 由 Google 于 2004 年 推出 的 ， 旨 在 将 数据 集 分 配给 不 同 的 计算 
机 ， 并 将 本 地 处 理 和 集群 节点 之 间 的 通信 自动 化 。 


那 时 ，MapReduce 框架 和 一 种 分 布 式 文件 系统 Google 文件 系统 (GFS 或 GoogleFS ) 协 
同 工 作 ， 这 种 文件 系统 是 为 在 计算 集群 中 进行 数据 切片 (partition ) 和 复制 而 设计 的 。 为 存储 和 
处 理 单个 节点 容纳 不 下 的 数据 集 ， 切 片 很 有 用 ， 而 复制 确保 系统 能 够 妥善 地 处 理 故障 。 当 时 ， 
Google 结合 使 用 MapReduce 和 GFS 是 为 了 建立 网 页 索引 ， 但 后 来 Doug Cutting ( 当时 是 Yahool 
一 名 员工 ) 实现 了 MapReduce 和 GFS 概念 ,推出 了 最 初 的 Hadoop 分 布 式 文件 系统 (HDFS ) 和 
Hadoop MapReduce。 


MapReduce 暴露 的 编程 模型 实际 上 非常 简单 ， 其 理念 是 将 计算 表示 为 两 个 非常 通用 的 步骤: 
映射 (Map ) 和 归并 (Reduce )。 有 些 读者 可 能 熟悉 Python 函数 map 和 reduce, 但 在 MapReduce 
中 ，Map 和 Reduce 步骤 能 够 表示 的 操作 更 多 。 


Map 将 一 组 数据 作为 输入 ， 并 对 其 进行 变换 。 通 常 ，Map 的 结果 是 一 系列 可 交 给 Reduce 步 
骤 的 键 - 值 对 ;Reduce 步骤 聚合 键 相同 的 数据 项 ， 并 对 得 到 的 集合 应 用 一 个 函数 ， 这 通常 会 生成 
更 小 的 数据 集合 。 


对 于 前 一 章 介绍 的 产值 估算 问题 ,可 轻松 地 将 其 转换 为 一 系列 Map 和 Reduce 步骤 。 在 这 个 
例子 中 ， 输 入 是 一 系列 随机 数字 对 。 变 换 ( Map 步骤 ) 是 击 中 检查 ， 而 Reduce 步 又 是 计算 击 中 
检查 结果 为 True 的 次 数 。 

一 个 典型 的 MapReduce 模型 示例 是 单词 计数 实现 : 程序 将 一 系列 文档 作为 输入 ， 并 返回 每 
个 单词 在 这 些 文档 中 出 现 的 总 次 数 。 下 图 说 明了 单词 计数 程序 的 Map 和 Reduce 步骤 ， 其 中 左边 
是 输入 文档 。Map 操作 生成 一 系列 (key, value) 项 ,其 中 第 一 个 元 素 为 单词 ， 而 第 二 个 元 素 为 1 
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为 单词 每 次 出 现 都 将 导致 最 终 计数 加 1 )。 


接 下 来 ， 我 们 执行 Reduce 操作 ， 将 键 相同 的 项 聚合 起 来 ， 得 到 每 个 单词 出 现 的 总 次 数 。 从 
下 图 可 知 ， 将 键 为 the 的 项 的 值 累积 ， 得 到 (the, 4) 项 。 








the, 1 

dog,1 

sat, 1 
The dog sat the, 1 SU 一 一 the, 4 
on the mat Oona:1 < 一 一 dog, 1 
mat, 1 sat, 2 
The cat sat the, 1 cat, 1 
on the mat cat, 1 on, 2 
sat, 1 mat, 2 

the, 1 

on,1 

mat, 1 














如 果 我 们 使 用 Map 和 Reduce 操作 来 实现 这 种 算法 ， 该 框架 实现 将 通过 巧妙 的 算法 限制 节点 
之 间 的 通信 ， 确 保 高 效 地 完成 数据 生成 和 聚合 。 


然而 ，MapReduce 是 如 何 最 大 限度 地 减少 通信 的 呢 ? 我 们 来 看 一 个 MapReduce 任务 的 完成 
过 程 。 假 设 有 一 个 包含 两 个 节点 的 集群 ， 每 个 节点 都 从 磁盘 加 载 一 个 数据 分 片 (通常 位 于 节点 本 
地 )， 为 处 理 数据 做 好 准备 。 在 每 个 节点 中 ， 都 创建 一 个 映射 器 ( mapper ) 进程 ， 并 对 数据 进行 
处 理 以 生成 中 间 结 果 。 


接 下 来 ， 必 须 将 数据 发 送 给 归并 器 (reducer ) 做 进一步 的 处 理 , 但 这 样 做 时 ， 必 须 确保 键 相 
同 的 所 有 项 都 被 发 送 给 同一 个 归并 器 。 这 项 操作 被 称 为 分 组 (shuffling )， 是 MapReduce 模型 中 
最 主要 的 通信 任务 。 
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请 注意 ,交换 数 据 前 ， 必 须 给 每 个 归并 器 分 配 一 个 键 子 集 ， 这 个 步骤 被 称 为 切片 ( partitioning )。 
归并 器 获得 自己 的 键 切片 后 ， 就 可 处 理 数据 并 将 结果 写 人 磁盘 了 。 

通过 Apache Hadoop 项 目 ，MapReduce 框架 得 以 被 众多 公司 和 组 织 广泛 使 用 。 最 近 ， 推 出 了 
一 些 新 框架 ， 它 们 扩展 了 MapReduce 引入 的 理念 ， 可 用 于 创建 这 样 的 系统 : 能 够 表示 更 复杂 的 
工作 流程 ， 能 够 更 高 效 地 使 用 内 存 ， 支 持 精 益 而 高 效 地 执行 分 布 式 任务 。 


在 接 下 来 的 几 节 中 ， 我 们 将 介绍 在 Python 分 布 式 领域 用 得 最 多 的 两 个 库 : Dask 和 PySpark。 























8.2 Dask 


Dask 是 Continuum Analytics 推出 的 一 个 项 目 ( 这 家 公司 还 推出 了 Numba 和 包 管 理 器 conda )， 
这 是 一 个 用 于 并 行 和 分 布 式 计算 的 Python 库 , 擅长 执行 数据 分 析 任 务 , 并 紧密 地 集成 到 了 Python 
生态 系统 中 。 


Dask 最 初 用 于 在 单机 上 处 理 超过 内 存量 的 数据 集 , 但 最 近 随 着 Dask Distributed 项 目的 推出 ， 
其 代码 做 了 修改 , 能 够 在 集群 中 执行 任务 , 且 性 能 和 容错 功能 都 极为 出 色 。Dask 支持 MapReduce 
型 任务 以 及 复杂 的 数值 算法 。 












































8.2.1 有 向 无 环 图 


Dask 背后 的 理念 与 前 一 章 介 绍 的 Theano 和 Tensorflow 的 基本 思想 很 像 。 你 可 使 用 一 个 熟悉 
的 Python 式 API 来 建立 执行 计划 ， 而 这 个 框架 会 自动 将 工作 流程 划分 成 任务 ， 并 将 它们 交 给 多 
个 进程 或 多 台 计 算 机 去 执行 。 


Dask 使 用 有 向 无 环 图 (DAG ) 来 表示 变量 和 操作 ， 而 这 种 图 可 使 用 简单 的 Python 字典 来 表 
示 。 为 了 大 致 演示 其 中 的 工作 原理 ， 我 们 将 使 用 Dask 来 计算 两 个 数 的 和 。 为 定义 计算 图 ， 我们 
将 输入 变量 的 值 存储 在 字典 中 ， 如 下 所 示 (这 里 将 变量 a 和 pb 的 值 都 设置 为 2 )。 
到 基 拱 - 总 ， 来 
We 
Te 
} 
每 个 变量 都 相当 于 DAG 中 的 一 个 节点 。 为 创建 DAG , 接 下 来 必须 定义 要 对 节点 执行 的 操作 。 
在 Dask 中 ， 要 定义 任务 ， 可 在 字典 (这 里 为 ask ) 中 添加 一 个 元 组 ， 其 中 包含 一 个 Python 函数 
及 其 位 置 参 数 。 为 实现 求 和 运算 , 可 添加 一 个 名 为 result 的 新 节点 (你 可 随便 给 这 个 节点 命名 )。 
这 个 节点 的 值 是 一 个 元 组 ， 其 中 包含 我 们 要 执行 的 函数 及 其 参数 ， 如 下 面 的 代码 所 示 。 
dsk = { 


RE 
"pw 3 2 
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人 


} 
出 于 风格 和 清晰 方面 的 考虑 ， 可 修改 求 和 运算 ,将 lambaa 语句 蔡 换 为 标准 库 函 数 


operator.addo 











from operator import add 
dsk 
a 
VI 
"eesilt yn (add a BY 
} 
必须 指出 的 是 ， 这 里 使 用 字符 串 "a" 和 "pb" 指定 了 要 传递 给 函数 的 参数 ， 它 们 表示 图 中 的 节 
点 a 和 bo。 请 注意 , 前 面 定义 DAG 时 , 没有 使 用 任何 Dask 特有 的 函数 ， 这 表明 这 个 框架 非常 灵 
活 而 简洁 ， 因 为 所 有 操作 都 是 在 简单 而 熟悉 的 Python 字典 上 执行 的 。 


任务 是 由 调度 器 执行 的 。 调 度 器 是 一 个 函数 ， 它 接受 一 个 DAG 以 及 要 执行 的 任务 ， 并 返回 
计算 得 到 的 值 。 默 认 Dask 调度 器 为 函数 dask .get， 你 可 像 下 面 这 样 使 用 它 : 


























import dask 


res = dask.get (dsk, "result") 

print (res) 

# 输出 : 

# 4 

所 有 复杂 性 都 隐藏 在 调度 器 背后 ,调度 器 会 负责 将 任务 分 配给 不 同 的 线程 、 进 程 乃 至 不 同 的 
计算 机 。 调 度 器 dask.get 采用 的 是 同步 串 行 实现 ， 非 常 适合 用 于 测试 和 调试 。 

就 理解 Dask 如 何 发 挥 其 魔力 以 及 进行 调试 而 言 , 使 用 简单 的 字典 来 定义 DAG 很 有 帮助 。 你 
还 可 使 用 原始 (raw ) 字典 来 实现 Dask API 中 没有 的 复杂 算法 。 接 下 来 ， 我 们 来 学 习 Dask 是 如 
何 通过 类 似 于 NumPy 和 Pandas 的 接口 来 自动 生成 任务 的 。 
































8.2.2 ”Dask 数组 


Dask 的 主要 用 途 之 一 是 自动 生成 并 行 数组 操作 ， 这 可 极 大 地 简化 规模 超过 内 存 容量 的 数组 
的 处 理工 作 。Dask 采用 的 策略 是 ， 将 数组 分 割 为 大 量 的 子 单元 一 一 Dask 称 之 为 块 (chunk )。 


Dask 在 模块 gask .array (以 下 简称 为 ga ) 中 实现 了 一 个 类 似 于 NumPy 的 数组 接口 。 要 从 
NumPy 数组 创建 一 个 Dask 数组 ， 可 使 用 函数 aa. from_array。 这 个 函数 要 求 你 指定 块 大 小 ， 
并 返回 一 个 aa.array 对 象 ， 而 da.array 对 象 会 负责 将 原始 数组 分 割 为 指定 大 小 的 子 单元 。 
在 下 面 的 代码 中 ,我 们 创建 了 一 个 包含 30 个 元 素 的 数组 ， 并 将 其 分 割 成 块 ， 其 中 每 块 包含 10 个 
元 素 。 
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import numpy as np 
import dask.array as da6 


a = np.random.rand(30) 


a_da = da.from array (a, chunks=10) 
# 结果 : 
# dask.array<array-4..., shape=(30,), dtype=float64, chunksize=(10,)> 


变量 a_da 维护 着 一 个 Dask 图 ， 这 个 图 可 通过 属性 aask 来 访问 。 为 了 和 弄 明 白 Dask 在 幕后 
做 了 哪些 工作 ,可 查看 这 个 Dask 图 的 内 容 。 从 下 面 的 示例 可 知 ， 这 个 Dask 图 包含 4 个 节点 , 其 
中 一 个 是 源 数 组 , 其 键 为 'array-original-4c76'。 字典 a_ga.dask 中 的 其 他 三 个 键 是 任务 ， 
你 可 使 用 它们 和 函数 aask.array .core.getarray 来 访问 原始 数组 中 的 块 。 如 你 所 见 ， 每 个 
任务 都 提取 一 个 包含 10 个 元 素 的 切片 (slice )。 


dict(a_da.dask) 
# 结果 
{('array-4c76', 0): (<function dask.array.core.getarray>, 
'array-original-4c76', 
(slice(0, 10, None),)), 
('array-4c76', 2): (<function dask.array.core.getarray>, 
'array-original-4c76', 
(slice(20, 30, None),)), 
('array-4c76', 1): (<function dask.array.core.getarray>, 
'array-original-4c76', 
(slice(10, 20, None),)), 
'array-original-4c76': array([ ... ]) 


} 

如 果 我 们 对 数组 a_qa 执行 操作 ，Dask 将 生成 更 多 操作 块 的 子 任务 ， 这 打开 了 并 行 的 大 门 。 
da.array 暴露 的 接口 遵循 NumPy 语义 和 广播 规则 。 下 面 的 完整 代码 演示 了 Dask 与 NumPy 广 
播 规则 、 基 于 元 素 的 操作 和 其 他 方法 的 良好 兼容 性 。 


N = 10000 
chunksize = 1000 



































x_data = np.random.uniform(-1, 1, N) 
y_data np.random.uniform(-1, 1, N) 


x = da.from array (x_data, chunks=chunksize) 
y = da.from array (y_data, chunks=chunksize) 


a MM ph = Ee Ve 
hits = hit_test.sum() 
BE -bs /NN 


要 计算 pi 的 值 ， 可 使 用 方法 compute。 调 用 这 个 方法 时 ， 也 可 使 用 可 选 参 数 get 指定 其 他 
调度 器 ( 默认 情况 下 ，da. array 使 用 一 个 多 线程 调度 器 )。 


pi.compute() # 也 可 这 样 做 : pi.compute(get=dask.get) 











结果 : 
3.1804000000000001 











即便 是 看 起 来 非常 简单 的 算法 ， 如 佑 算 pi 的 值 ， 也 可 能 需要 执行 大 量 的 任务 。Dask 提供 了 
计算 图 可 视 化 工具 。 下 面 是 产值 估算 的 Dask 图 ， 要 获取 它 ， 可 执行 方法 pi .visualize()。 在 
这 个 图 中 ， 圆 圈 表 示 对 市 点 执行 的 变换 ， 而 节点 用 矩形 表示 。 通 过 这 个 示例 ， 我 们 可 对 Dask 
的 复杂 性 有 大 致 的 认识 , 并 知道 调度 器 的 职责 是 制订 高 效 的 执行 计划 , 其 中 包括 按 正确 的 顺序 排 
列 任务 以 及 挑选 出 要 并 行 执行 的 任务 。 


(add#5', 9) (add#5', 8) 




















(‘array#1', 9) (array-#4', 3) (array#1', 8) (array-#4', 9) (array#1', 5) (array-#4', 8) 


= array-original #1 array original-#4 性 一 一 


8.2.3 Dask Bag 和 DataFrame 















getarray 




























Dask 提供 了 其 他 用 于 自动 生成 计算 图 的 数据 结构 。 本 节 将 介绍 dask.bag.Bag 和 
dask.dataframe.DataFrame, 其 中 前 者 是 一 种 通用 的 元 素 集 合 , 可 用 来 编写 MapReduce 式 算 
法 代码 ， 而 后 者 是 pandas .DataFrame 的 分 布 式 版 本 。 























可 从 Python 集合 轻松 地 创建 Bag。 例如 , 要 从 列表 创建 Bag, 可 使 用 工厂 函数 from_sequence。 


8.2 Dask 155 








要 指定 并 行 等 级 ， 可 使 用 参数 npartitions (这 将 把 Bag 的 内 容 分 成 很 多 块 )。 在 下 面 的 示例 
中 ， 我 们 创建 了 一 个 Bag， 它 包含 数字 0~99， 并 被 分 成 4 块 。 

import dask.bag as dab 

dab.from sequence (range(100), npartitions=4) 

# 结果 : 

# dask.bag<from se..., npartitions=4> 

在 下 一 个 示例 中 ， 我 们 将 使 用 类 似 于 MapReduce 的 算法 ,计算 一 组 字符 串 中 各 个 单词 出 现 
的 次 数 。 给 定 一 个 序列 集合 ， 我 们 依次 使 用 str.split 和 concat 来 生成 一 个 线性 列表 ， 其 中 
包含 给 定 文 档 中 所 有 的 单词 。 接 下 来 ,对 于 每 个 单词 ,我 们 生成 一 个 字典 ， 其 中 包含 一 个 单词 和 
值 1 (参见 本 章 前 面 的 “MapReduce 简介 ”一 节 )。 然 后 ,我们 编写 一 个 Reduce 步骤 ， 使 用 运算 
符 folapy 来 计算 单词 出 现 的 次 数 。 


变换 folgpy 很 有 用 ， 可 用 来 实现 合并 单词 计数 的 Reduce 步 又， 这 样 便 无 须 将 元 素 分 组 再 
进行 分 配 。 假设 我 们 的 单词 数据 集 被 分 成 两 个 切片 。 为 计算 单词 出 现 的 次 数 ,一 种 不 错 的 策略 是 
先 计算 每 个 切片 中 单词 出 现 的 次 数 ， 再 将 这 些 数据 合并 ,得 到 最 终 的 结果 ， 如 下 图 所 示 。 左 边 是 
输入 切片 。 我 们 先 计算 每 个 切片 中 单词 出 现 的 次 数 (这 是 使 用 二 元 运算 binop 完成 的 )， 再 使 用 
函数 combine 将 这 两 部 分 数据 合并 。 
















































































the, 1 
dog, 1 the, 2 
sat, 1 binop dog, 1 
the, 1 rl sat, 1 
on, 1 on, 1 
mat, 1 mat, 1 
SN the, 4 
切片 cat, 1 
combine dog, 1 
the, 1 pa SAS 
a the, 2 on, 2 
sat 1 binop cat, 1 mat, 2 
the, 1 一 人 sat'1 
on, 1 on, 1 
mat, 1 mat, 1 
切片 

















下 面 的 代码 演示 了 如 何 使 用 Bag 和 运算 符 foldby 来 计算 单词 出 现 的 次 数 。 运算 符 foldpby ce 
接受 5 个 参数 。 
口 key: 这 是 一 个 函数 ， 返 回 用 于 归并 操作 的 键 。 
口 binop: 这 是 一 个 函数 ， 它 接受 两 个 参数 一 一 total 和 x。 给 定 总 值 (到 目前 为 止 的 累积 
值 )，binop 会 将 下 一 项 合并 到 总 值 中 。 
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口 initial: 这 是 给 pinop 提供 的 初始 累积 值 。 
口 combine: 这 是 一 个 函数 ， 将 各 个 切片 的 总 值 合并 ( 这 里 是 简单 的 求 和 )。 


口 initial_combine: 这 是 给 combine 提供 的 初始 累积 值 。 


下 面 来 看 看 代码 : 








collection = dab.from sequence(["the cat sat on the mat", 


"the dog sat on the mat"], 
npartitions=2) 


binop = lambda total, x: total + x["count"] 
combine = lambda a, b: a+b 
(collection 
.map (str.split) 
.Concat () 
.map (lambda x: {"word": x, "count": 1}) 
.foldby (lambda x: x["word"], binop, 0, combine, 0) 
.Compute()) 
# 输出 : 
# [Ca 1) (oat TL) (Sat Zr FIO; 2) "Ma 2) 7 ENE 
4)] 


如 你 所 见 ， 要 使 用 Bag 高 效 地 表示 复杂 的 操作 ， 可 能 很 烦琐 。 有 鉴于 此 ，Dask 提供 了 男 一 
种 数据 结构 一 一 dask .dataframe .DataFrame， 这 种 数据 结构 是 为 分 析 型 工作 负载 而 设计 的 。 
在 Dask 中 ， 要 初始 化 DataFrame， 可 使 用 很 多 方式 ， 如 从 分 布 式 文件 系统 中 的 CSV 文件 初始 
化 ,或 者 直接 从 Bag 初始 化 。 就 像 aa .array 提供 了 准确 反映 NumPy 功能 的 API 一 样 ，Dask 
DataFrame 可 作为 分 布 式 pandas .DataFrame 使 用 。 


为 了 演示 这 一 点 ， 我 们 将 使 用 DataFrame 来 计算 单词 出 现 的 次 数 。 我 们 首先 加 载 数据 ， 以 
生成 一 个 由 单词 组 成 的 Bag， 再 使 用 方法 to_dataframe 将 这 个 Bag 转换 为 DataFrame。 通过 
向 方法 to_dataframe 传递 一 个 列 名 , 可 初始 化 一 个 DataFrame, 它 只 包含 一 列 , 名 为 words。 


























collection = dab.from sequence(["the cat sat on the mat", 
"the dog sat on the mat"], 
npartitions=2) 
words = collection.map(str.split).concat() 
df = words.to_dataframe(['words']) 


df .head() 
# 结果 : 

# words 
# 0 the 
# 1 cat 
# 2 sat 
# 3 on 
# 4 the 


Dask DataFrame 精确 地 复制 了 pandas .DataFrame API。 要 计算 单词 出 现 的 次 数 ， 只 需 对 
words 列 调用 方法 value_counts， 而 Dask 将 自动 设计 一 种 并 行 计算 策略 。 要 触发 这 种 计算 ， 
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只 需 调用 方法 compute: 























df.words.value_counts().compute() 
结果 : 
the 4 
sat 2 
on 2 
mat 2 
dog 1 
cat 灶 
Name: words, dtype: int64 
你 可 能 会 提出 一 个 有 趣 的 问题 ，DataFrame 在 幕后 使 用 的 是 什么 样 的 算法 ?要 找 出 这 个 问 


题 的 答案 ， 可 查看 生成 的 Dask 图 的 上 半 部 分 ， 如 下 图 所 示 。 最 下 面 的 两 个 矩形 表示 两 个 数据 集 
切片 ,它们 被 存储 为 两 个 pa.series 实例 ,为 计算 单词 出 现 的 总 次 数 ,Dask 先 对 每 个 pd. series 
执行 value_counts， 再 使 用 value_counts_ aggregate 将 次 数 合并 。 














(‘value-counts-agg-#2', 0) 






value_counts_aggregate(...) 





(‘value-counts-chunk-#2', 0, 0, 0) (‘value-counts-chunk-#2', 0, 1, 0) 

















(getitem-#0', 0) (getitem-#0', 1) 
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如 你 所 见 ，Dask 数组 和 pataFrame 利用 了 NumPy 和 Pandas 的 快速 向 量化 实现 ， 来 获得 出 
色 的 性 能 和 稳定 性 。 





8.2.4 Dask distributed 


Dask 项 目的 最 初 几 个 版 本 被 设计 成 在 单机 上 和 运行， 使 用 的 是 基于 线程 或 进程 的 调度 器 。 最 
近 推出 了 新 的 分 布 式 后 端 实现 ， 可 用 来 在 计算 机 网 络 上 创建 和 运行 Dask 图 。 


























Dask distributed 不 会 随 Dask 自动 安装 ， 要 安装 这 个 库 ， 可 使 用 包 管 理 器 conda 
0 (使 用 命令 $ conda install distributed )， 也 可 使 用 pip (使 用 命令 $ pip 
install distributed )。 








Dask distributed 使 用 起 来 非常 容易 ， 要 完成 准备 工作 ， 最 简单 的 方式 是 实例 化 一 个 client 
对 象 。 


from dask.distributed import Client 


client = Client() 

# 结果 : 

# <Client: scheduler='tcp://127.0.0.1:46472' processes=4 cores=4> 

默认 情况 下 ，Dask 将 在 本 地 计算 机 上 启动 几 个 重要 的 进程 。 要 通过 client 实例 调度 和 执 
行 分 布 式 任 务 ， 这 些 进 程 必 不 可 少 。Dask 集群 的 主要 组 件 是 一 个 调度 器 和 一 系列 工作 进程 。 


调度 器 是 负责 将 工作 分 配给 工作 进程 并 监视 和 管理 结果 的 进程 。 一 般 而 言 , 任务 被 提交 给 用 
户 后 ,调度 器 将 找到 一 个 空闲 的 工作 进程 ， 并 将 任务 提交 给 它 去 执行 。 工 作 进 程 完 成 任务 后 , 将 
告诉 调度 需 结 果 可 用 了 。 


工作 进程 接受 到 来 的 任务 并 生成 结果 。 工 作 进 程 可 能 位 于 网 络 中 其 他 的 计算 机 上 。 工 作 进 程 
使 用 ThreadPoolExecutor 来 执行 任务 ; 在 使 用 的 函数 (如 nogil 块 中 的 Numpy、Pandas 和 
Cython 函数 ) 不 会 获取 GIL 时 ， 这 样 可 实现 并 行 性 。 执 行 纯粹 的 Python 代码 时 ， 启 动 大 量 单线 
程 工作 进程 更 有 利 ， 因 为 这 样 即便 代码 会 获取 GIL， 也 将 实现 并 行 性 。 


可 使 用 client 类 中 熟悉 的 异步 方法 , 手动 将 任务 提交 给 调度 器 。 例 如 ,要 将 函数 提交 给 集 
群 去 执行 ， 可 使 用 方法 client.map 和 client.submit。 下 面 的 代码 演示 了 如 何 使 用 
Client.map 和 Client.submit 来 计算 几 个 数字 的 平方 client 将 向 调度 器 提交 一 系列 任务 ， 
对 于 每 个 任务 ， 我 们 都 将 获得 一 个 Future 实例 。 


























def square (x): 
ELUrn. 2 


fut = client.submit (square, 2) 
# 结果 : 
# <Future: status: pending, key: 
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square-05236e00d545104559e0cd20f94cd8ab> 


client.map (square) 

futs = client.map(square, [0, 1, 2, 3, 4]) 

# 结果 : 

# [<Future: status: pending, key: 
scuared043f00c1427622a694f518348870a2f>， 

# <Future: status: pending, key: 
square-9352eaclfblf6659e8442ca4838b6f8d>，, 

# <Future: status: finished, type: int, key: 
square-05236e00d545104559e0cd20f94cd8ab>， 
<Future: status: pending, key: 
square-c89f4c21ae6004ce0fe5206f1la8d619d>, 
<Future: status: pending, key: 
square-a66flcl3e2a46762b092a4f2922e9db9>] 


到 目前 为 止 ， 与 本 书 前 面 使 用 TheadPoolFExecutor 和 ProcessPoolExecutor 的 情况 很 
像 。 然 而 ，Dask distributed 不 仅 提 交 任 务 ， 还 将 计算 结果 缓存 到 工作 进程 的 内 存 中 。 在 上 面 的 示 
例 中 就 可 看 到 缓存 在 发 挥 作用 。 我 们 首次 调用 client .submit 时 ， 创 建 了 任务 square (2),， 
其 状态 被 设置 为 未 完 (pending ); 我 们 接着 调用 client .map 时 , 任务 square (2) 被 再 次 提交 
给 调度 器 ,但 这 次 没有 重新 计算 它 的 值 ， 调 度 絮 直接 从 工作 进程 那里 获取 了 结果 。 因 此 ，map 返 
回 的 第 三 个 Future 的 状态 为 完成 (finished )。 


要 从 一 系列 Future 实例 中 获取 结果 ， 可 使 用 方法 client .gather: 











填 井 井 砷 井 


























client.gather (futs) 

# 结果 : 

| 

client 还 可 用 来 运行 任何 Dask 图 。 例 如， 要 估算 pi 值 ， 只 需 将 函数 cl ient .get 作为 可 
选 参数 传递 给 pi.computeo 


pi.compute (get=client .get) 


这 种 特征 让 Dask 的 可 伸缩 性 极 强 ， 因 为 你 可 使 用 较 简 单 的 调度 器 在 本 地 计算 机 上 开发 并 运 
行 算 法 ， 如 果 对 性 能 不 满意 ， 可 在 由 数 百 台 计 算 机 组 成 的 集群 上 运行 这 些 算法 。 


手动 建立 集群 
要 手动 实例 化 调度 器 和 工作 进程 ， 可 使 用 命令 行 工 具 dask-scheduler 和 dask-worker。 
首先 ， 使 用 命令 aask-scheduler 初始 化 一 个 调度 器 。 


$ dask-scheduler 

distributed.scheduler - INEO - -------------- 
distributed.scheduler - INFO - Scheduler at: tcp://192.168.0.102:8786 
distributed.scheduler - INFO - bokeh at: 0.0.0.0:8788 
distributed.scheduler - INFO - http at: 0.0.0.0:9786 
distributed.bokeh.application - INFO - Web UI: 











1 
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http://127.0.0.1:8787/status/ 


distributed.scheduler - INFO - -------------------------------------------- 


这 将 给 调度 器 提供 一 个 地 址 , 还 将 提供 一 个 Web 








$ dask-worker 192.168.0.102:8786 
distributed.nanny - INFO - Start Nanny at: ' 
distributed.worker - INFO - Start worker at: 

















UI 地 址 , 可 通过 访问 它 来 监视 集群 的 状态 。 
现在 可 以 给 调度 器 分 配 一 些 工 作 进程 了 ， 为 此 可 使 用 命令 dask-worker， 并 将 调度 器 的 地 址 传 
递 给 工作 进程 。 这 将 自动 启动 一 个 包含 4 个 线程 的 工作 进程 。 











tcp://192.168.0.102:45711' 
tcp://192.168.0.102:45928 


distributed.worker - INFO - bokeh at: 192.168.0.102:8789 

distributed.worker - INFO - http at: 192.168.0.102:46154 

distributed.worker - INFO - nanny at: 192.168.0.102:45711 
distributed.worker - INFO - Waiting to connect to: tcp://192.168.0.102:8786 
distributed.worker - INFO - ----------------------------------------------- 


distributed.worker - INFO - Threads: 4 
distributed.worker - INFO - Memory: 4.97 GB 
distributed.worker - INFO - Local Directory: 


/tmp/nanny-jhlesoo7 


distributed.worker - INFO - ----------------------------------------------- 


distributed.worker - INFO - Registered to: tcp://192.168.0.102:8786 
distributed.worker - INFO - ----------------------------------------------- 


distributed.nanny - INFO - Nanny 'tcp://192. 
process 'tcp://192.168.0.102:45928' 


168.0.102:45711' starts worker 

















Dask 调度 带 的 适应 能 力 极 强 ， 如 果 我 们 先 添加 








初始 化 一 个 client 实例 ， 并 提供 调度 带 的 地 址 。 


client = Client (address='192.168.0.102:8786' 
# 结果 : 





8 结果 不 可 用 ， 并 根据 需要 重新 计算 。 最 后 ， 要 在 Python 会 话 中 使 用 你 初始 化 的 调度 器 


) 


# <Client: scheduler='tcp://192.168.0.102:8786' processes=1 cores=4> 


Dask 还 提供 了 便利 的 用 于 诊断 的 Web UI， 可 用 来 监视 状态 以 及 在 集群 上 执行 的 每 项 任务 花 
费 的 时 间 。 在 下 图 中 ，Task Stream 指出 了 执行 pi 值 估 算 花 费 的 时 间 。 图 中 的 每 条 灰色 线 对 应 于 
工作 进程 使 用 的 一 个 线程 (在 这 里 ， 有 一 个 工作 进程 一 一 也 叫 Worker Core， 它 包含 4 个 线程 )， 














而 每 个 矩形 框 对 应 于 一 个 任务 , 这 些 矩 形 框 是 彩色 的 











了 删除 一 个 工作 进程 ， 调 度 器 将 能 够 跟踪 哪 


3 
， 只 需 


相同 的 颜色 表示 相同 类 型 的 任务 , 如 加 





法 运算 、 求 寡 或 指数 运算 。 从 该 图 可 知 ， 所 有 和 矩形 框 都 很 小 且 彼 此 相隔 很 远 ， 这 意味 着 相 比 于 通 





信 开 销 ， 这 些 任务 都 很 小 。 
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Task Stream 一 只 9p | 心 GO 


Worker Core 
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240ms 260ms 280ms 300ms 320ms 340ms 
Time 


























就 这 个 示例 而 言 ， 提 高 块 大 小 是 有 利 的 ， 因 为 这 样 每 项 任务 的 运行 时 间 将 相对 于 通信 时 间 
更 长 。 








8.3 使 用 PySpark 


当前 , Apache Spark 是 最 受 欢 迎 的 分 布 式 计算 项 目 之 一 。 发 布 于 2014 年 的 Spark 是 使 用 Scala 
编写 的 ， 它 集成 了 HDFS， 相 比 于 Hadoop MapReduce 框架 有 多 个 方面 的 优势 和 改进 。 


不 同 于 Hadoop MapReduce,Spark 设计 用 于 交互 地 处 理 数 据 , 并 提供 了 供 Java、Scala 和 Python 
编程 语言 使 用 的 API。 由 于 Spark 采 用 的 架构 不 同 ， 尤 其 是 将 结果 存储 在 内 存 中 ， 其 速度 通常 比 
Hadoop MapReduce 快 得 多 。 









































8.3.1 搭建 Spark 和 PySpark 环境 


要 从 头 搭建 PySpark 环境 ， 需 要 安装 Java 和 Scala 运行 时 ， 从 源 代 码 编译 这 个 项 目 ， 并 配置 
Python 和 Jupyter notebook 以 便 安 装 Spark 时 能 够 使 用 它们 。 一 种 搭建 PySpark 环境 的 方式 是 , 使 
用 通过 Docker 容器 提供 的 配置 好 的 Spark 集群 ， 这 种 方式 简单 日 不 容易 出 错 。 









































Docker 可 从 https:/www.dockercom/ 下 载 。 如 果 你 不 熟悉 容器 ， 可 阅读 下 一 章 中 
有 关 这 方面 的 简介 。 


要 搭建 Spark 集群 ， 只 需 切 换 到 本 章 代码 文件 所 在 的 目录 ( 其 中 有 一 个 名 为 Dockerfile 的 文 
件 )， 并 执行 如 下 命令 : 
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$ docker build -t pyspark 
这 个 命令 将 自动 下 载 Spark、Python 和 Jupyter notebook， 并 在 一 个 隔离 环境 中 安装 和 配置 它 
们 。 要 启动 Spark 和 Jupyter notebook 会 话 ， 可 执行 如 下 命令 : 


$ docker run -d -p 8888:8888 -p 4040:4040 pyspark 
22b9dbc2767c260e525dcbc562b84a399a7f338felc06418cbe6b351c998e239 


这 个 命令 打印 一 个 独一无二 的 卫 ( 容器 id， 可 用 来 引用 应 用 程序 容 右 )， 并 在 后 台 启 动 Spark 
和 Jupyter notebook。 选 项 -p 确保 我 们 能 够 在 本 地 计算 机 中 访问 SparkUI 和 Jupyter 网 络 端 口 。 执 
行 这 个 命令 后 ， 就 可 在 浏览 器 中 输入 地 址 http:/127.0.0.1:8888 来 访问 Jupyter notebook 会 话 。 要 检 
查 是 否 正确 地 初始 化 了 Spark， 可 创建 一 个 新 的 notebook， 并 在 其 中 一 个 单元 格 中 执行 如 下 代码 : 





























import pyspark 
sc = pyspark.SparkContext('local[*]') 





rdd = sc.parallelize(range(1000)) 

rdqd.first() 

# 结果 : 

# 0 

这 将 初始 化 一 个 sparkcontext, 并 获取 一 个 集合 中 的 第 一 个 元 素 (这些 新 术语 将 在 后 面 详 
细 解 释 )。 初 始 化 sparkcontext 后 ， 还 可 访问 http://127.0.0.1:4040 来 打开 Spark Web UI。 


完成 搭建 工作 后 ， 接 下 来 探索 Spark 的 工作 原理 ， 以 及 如 何 使 用 其 功能 强大 的 API 来 实现 简 
单 的 并 行 算法 。 








8.3.2 Spark 架构 


Spark 集群 是 一 组 分 布 在 不 同 计 算 机 上 的 进程 。 驱 动 器 程序 ( driver program ) 是 一 个 进程 ， 
如 Scala 或 Python 解释 器 ， 用 户 使 用 它 来 提交 要 执行 的 任务 。 


与 Dask 中 一 样 ， 用 户 可 使 用 一 个 特殊 的 API 来 创建 任务 图 ， 并 将 这 些 任务 提交 给 集群 管理 
器 〈cluster manager )。 集 群 管理 器 负责 将 这 些 任 务 分 配给 执行 器 〈executor ) 一 一 负责 执行 任务 
的 进程 。 在 多 用 户 系统 中 ， 集 群 管理 器 还 负责 给 每 位 用 户 分 配 资源 。 


用 户 通过 驱动 器 程序 与 集群 管理 顺 交 互 。 负 责 在 用 户 和 Spark 集群 之 间 通 信 的 类 被 称 为 
SparkContext ， 这 个 类 能 够 根据 用 户 可 用 的 资源 连接 并 配置 集群 上 的 执行 希 。 


在 大 多 数 情 况 下 ,Spark 通过 一 种 名 为 弹性 分 布 式 数据 集 (RDD ) 的 数据 结构 来 管理 其 数据 。 
RDD 表示 一 个 元 素 集合 ， 它 能 够 处 理 大 型 数据 集 ， 这 是 通过 将 数据 集中 的 元 素 切片 ， 再 并 行 地 
操作 这 些 切 片 实现 的 〈 请 注意 ， 几 乎 对 用 户 隐藏 了 这 种 机 制 )。 在 合适 的 情况 下 ，RDD 还 可 存储 
在 内 存 中 ， 以 提高 访问 速度 以 及 缓存 访问 开销 极 高 的 中 间 结 果 。 
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通过 使 用 RDD， 可 定义 任务 和 变换 ( 这 很 像 在 Dask 中 自动 生成 计算 图 )， 而 在 被 请 求 时 ， 
集群 管理 器 将 自动 将 任务 分 派 给 空闲 执行 器 去 执行 。 


执行 器 接受 集群 管理 器 分 配 的 任务 ， 执 行 任 务 ， 并 在 需要 的 时 候 保留 结果 。 请 注意 ， 执 行 器 
可 能 有 多 个 内 核 ， 而 集群 中 的 每 个 节点 都 可 能 有 多 个 执行 器 。 一 般 而 言 ，Spark 能 够 抵御 执行 器 
故障 。 


下 图 说 明了 Spark 集群 中 前 述 组件 是 如 何 交互 的 。 驱 动 器 程序 与 集群 管理 器 交互 ， 而 集群 管 
理 器 管理 不 同 节 点 上 的 执行 器 实例 〈 每 个 执行 器 实例 都 可 能 有 多 个 线程 )。 请 注意 ， 虽 然 驱动 器 
程序 不 直接 控制 执行 器 ， 但 存储 在 执行 器 实例 上 的 结果 将 直接 在 执行 器 和 驱动 器 程序 之 间 传 输 ， 
因此 必须 能 够 从 执行 器 进程 通过 网 络 连接 到 驱动 器 程序 。 





























节点 2 

















那么 问题 来 了 ， 作 为 一 款 使 用 Scala 编写 的 软件 ，Spark 怎么 能 够 执行 Python 代码 呢 ? 集成 
是 通过 Py4J 库 实现 的 ， 这 个 库 在 幕后 维护 着 一 个 Python 进程 ， 并 通过 套 接 字 ( 一 种 进程 间 通 信 
方式 ) 与 这 个 进程 通信 。 为 运行 任务 ,执行 器 维护 着 一 系列 Python 进程 以便 并 行 地 处 理 Python 
代码 。 


RDD 和 在 驱动 器 程序 中 的 Python 进程 中 定义 的 变量 被 串 行 化 ， 而 集群 管理 器 和 执行 器 之 间 
的 通信 (包括 shuffling ) 是 由 Spark 的 Scala 代码 处 理 的 。 为 了 在 Python 和 Scala 之 间 交 互 ， 还 必 
须 执 行 额 外 的 串 行 化 步 又 ， 这 也 将 增加 通信 开销 。 因 此 ， 使 用 PySpark 时 必须 特别 小 心 ， 要 确保 
使 用 的 数据 结构 能 够 被 高 效 地 串 行 化 , 同时 确保 数据 切片 足够 大 , 让 通信 开销 相 比 于 执行 开销 可 
以 忽略 不 计 。 
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下 图 列 出 了 为 执行 PySpark 所 需 的 Python 进程 。 这 些 多 出 来 的 Python 进程 会 消耗 内 存 ， 还 
增加 了 一 个 间接 层 ， 导 致 错误 报告 更 加 复杂 。 






































虽然 存在 这 些 缺点 , 但 PySpark 依然 被 广泛 使 用 , 因为 它 在 活跃 的 Python 生态 系统 和 行业 领 
先 的 Hadoop 基础 设施 之 间架 起 了 一 座 桥梁 。 


8.3.3 ”弹性 分 布 式 数 据 集 


要 在 Python 中 创建 RDD， 最 简单 的 方式 是 使 用 方法 sparkContext .parallelize。 在 本 
章 前 面 ， 我 们 使 用 这 个 方法 并 行 化 了 一 个 包含 整数 0~1000 的 集合 ， 如 下 所 示 。 
rdd = sc.parallelize(range(1000)) 


# 结果 : 
# PythonRDD[3] at RDD at PythonRDD.scala:48 


合 raa 将 被 分 成 很 多 个 切片 ， 这 里 为 默认 的 4 个 〈 可 使 用 配置 选项 来 修改 默认 值 )。 要 显 
式 地 指定 切片 个 数 ， 可 向 parallelize 再 传递 一 个 参数 。 
rdd = sc.parallelize(range(1000), 2) 
rdd.getNumPartitions() # 这 个 函数 将 返回 切片 个 数 
partitions 


# 结果 : 
# 2 


RDD 支持 很 多 函数 式 编程 运算 符 ， 就 像 第 6 章 介绍 的 响应 式 编程 和 数据 流 〈 但 在 响应 式 编 
程 中 ， 运 算 符 是 设计 用 于 处 理事 件 而 不 是 普通 集合 的 )。 我 们 来 演示 一 下 你 现在 应 该 很 熟悉 的 基 
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本 区 





数 map。 在 下 面 的 示例 中 ， 我 们 使 用 了 map 来 计算 一 系列 数字 的 平方 。 


square_rdd = rdd.map (lambda x: x**2) 
# 结果 : 
# PythonRDD[5] at RDD at PythonRDD.scala:48 


函数 map 返回 一 个 新 的 RDD ， 而 没有 执行 任何 计算 。 要 触发 计算 ， 可 使 用 方法 collect， 








这 将 获取 集合 中 的 所 有 元 素 ; 也 可 使 用 方法 take， 它 只 返回 前 10 个 元 素 。 


square_rdd.collect () 
# 结果 : 
#m Ol Ly 十 


square_rdd.take(10) 
# 结果 : 
#0; 15 4259 L167; 25 36, 49, 64; :81] 


为 比较 PySpark、Dask 和 本 书 前 面 介绍 过 的 其 他 并 行 编程 库 ， 我 们 将 再 次 估算 pi 的 值 。 在 





PySpark 实现 中 , 我们 首先 使 用 parallelize 创建 两 个 包含 随机 数 的 RDD， 表 使 用 (与 Python 
函数 等 效 的 ) 函数 zip 合并 这 两 个 数据 集 ， 然 后 检查 这 些 随 机 点 是 否 在 圆 内 。 


中 ， 




















import numpy as np 


N 
x 
A 


10000 
np.random.uniform( 
np.random.uniform( 


a 
= 


Fadax 
rddy 


sc.parallelize (x) 
sc.parallelize(y) 


Pit test = rdqd x.zip(rdd y) .map(lambda xy: xy[0] xx 2 + XxXy[1] ** 2 < 1) 
pi = 4 * hit_test.sum()/N 


必须 指出 的 是 ，zip 和 map 操作 生成 新 的 RDD， 而 不 对 底层 数据 执行 指令 。 在 刚才 的 示例 
将 在 我 们 调用 函数 hit_test .sum 时 触发 代码 执行 ， 这 个 函数 返回 一 个 整数 。 这 种 行为 不 











同 于 Dask API， 使 用 Dask API 编写 的 所 有 代码 ( 包括 最 终结 果 pi ) 都 不 会 触发 代码 执行 。 











下 面 通 过 一 个 更 有 趣 的 应 用 程序 来 演示 其 他 的 RDD 方法 。 我 们 将 学 习 如 何 计 算 网 站 的 每 位 

















用 户 在 一 天 内 的 访问 次 数 。 在 实际 编程 中 ， 数 据 已 收集 到 数据 库 或 存储 在 分 布 式 文件 系统 〈 如 
HDFS ) 中 ,但 在 这 个 示例 中 ， 我 们 将 生成 一 些 数据 ， 再 进行 分 析 。 





在 下 面 的 代码 中 ， 我 们 生成 了 一 个 字典 列表 ， 其 中 每 个 字典 都 包含 一 位 用 户 〈 从 20 位 用 户 


中 选 出 来 的 ) 和 一 个 时 间 戳 。 生 成 这 个 数据 集 的 步 又 如 下 。 





(1) 创建 一 个 包含 20 位 用 户 的 用 户 池 (变量 users )。 
(2) 定义 一 个 函数 ， 返 回 一 个 介 于 两 个 日 期 之 间 的 随机 时 间 。 
(3) 从 用 户 池 中 随机 选择 一 位 用 户 ， 并 随机 选择 一 个 介 于 2017 年 1 月 1 日 和 2017 年 1 月 7 
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日 之 间 的 时 间 。 重 复 这 种 操作 10 000 次 。 


import datetime 


from uuid import uuid4 
from random import randrange, choice 


# 生成 20 位 用 户 
n_ users = 20 
users = [uuid4() for i in range(n users)] 


def random time(start, end): 
:返回 一 个 介 于 起 始 日 期 和 终止 日 期 之 间 的 随机 时 间 稚 ' 
# 选择 一 个 用 秒 数 表示 的 时 间 
total_seconds = (end - Statt).total_seconqs () 
return start + 
datetime.timedeltal(seconds=randrange (total_seconds)) 


start = datetime.datetime(2017, 1, 1) 
end = datetime.datetime(2017, 1, 7) 


entries = [] 
N= 10000 
for i in range(N): 
entries.append(t{ 
'user': choice(users), 
'timestamp': random time(start, end) 


} 


生成 数据 集 后 ， 就 可 开始 提问 并 使 用 PySpatk 来 回答 了 。 一 个 常见 的 问题 是 ， 某 位 用 户 访问 


了 网 站 多 少 次 。 为 回答 这 个 问题 ， 

















一 种 比较 幼稚 的 办 法 是 ,将 RDD 中 的 条 目 按 用 户 分 组 (使 用 


运算 符 groupBy )， 并 计算 每 位 用 户 有 多 少 个 条 目 。 在 PySpark 中 ，groupBy 将 一 个 用 于 提取 分 
组 键 的 函数 作为 参数 ， 并 返回 一 个 新 的 RDD， 其 中 包含 形 如 (key，group) 的 元 组 。 在 下 面 的 
示例 中 ， 我 们 将 用 户 ID 作为 键 提 供给 groupBy， 并 使 用 first 来 查看 第 一 个 元 素 。 


entries_rdd = sc.parallelize (entries) 
entries_rdd.groupBy (lambda x: x['user']).first() 








# 结果 : 











# (UUID('0604aab5-c7ba-4d5b-ble0-16091052fb11'), 
# <pyspark.resultiterable.ResultIterable at 0x7facedq4cdq0b8>) 


在 groupBy 返回 的 值 中 ， 每 个 用 户 ID 都 有 一 个 对 应 的 ResultIterable (大 致 相当 于 一 
个 列表 )。 要 计算 每 位 用 户 的 访问 次 数 ， 只 需 计 算 每 个 ResultIterable 的 长 度 即 可 。 


(entries_rdd 


.groupBy (lambda x: x['user']) 


.map(lambda kv: (kv[0], 
.take(5)) 
结果 : 


井 砷 井 


len(kv[1]))) 


[ (UUID('0604aab5-c7ba-4d5b-ble0-16091052fb11'), 536), 
(UUID('d72c81c1-83f9-4b3c-a21a-788736c9b2ea'),， 504)， 
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# (UUID('e2e125fa-8984-4a9a-9cal-b0620b113cdb')，498)， 
# (UUID('b90acaf9-f279-430d-854f-59f74432dd52')，561)， 
# (UUID('00d7be53-22c3-43cf-ace7-974689e9d54b')，466)] 











对 于 小 型 数据 集 来 说 ， 这 个 算法 的 效果 很 好 ,但 groupBy 要 求 收 集 每 位 用 户 的 所 有 条 目 并 

将 其 存储 到 内 存 中 ， 而 这 可 能 会 超过 节点 的 内 存量 。 由 于 我 们 不 需要 这 个 列表 ， 而 只 需要 访问 次 
数 ， 因 此 一 种 更 佳 的 方式 是 ， 只 计算 每 位 用 户 的 访问 次 数 ， 而 不 将 其 访问 列表 存储 到 内 存 中 。 
6 面 的 代码 中 ， 可 将 调用 map (lambda kv: (kv[0]，1len(kv[1]))) 替 换 为 

mapValues (len) ， 这 样 可 读 性 更 好 。 


为 提高 计算 效率 ， 可 使 用 函数 reduceByKey， 它 执行 的 操作 类 似 于 本 章 前 面 “MapReduce 
简介 ”一 节 介 绍 的 Reduce 步 又。 前 面 的 RDD 由 元 组 组 成 ， 其 中 每 个 元 组 的 第 一 个 元 素 都 是 键 ， 
而 第 二 个 元 素 为 值 ， 因 此 对 其 调用 函数 reduceByKey， 并 将 一 个 执行 归并 计算 的 函数 作为 其 第 
一 个 参数 。 下 面 的 代码 演示 了 子 数 redquceByKey 的 一 种 简单 用 法 。 在 这 个 示例 中 ， 有 一 些 与 整 











处 理由 键 - 值 对 组 成 的 RDD 时 ， 可 使 用 mapValues 将 一 个 函数 应 用 于 值 。 在 前 


























数 相关 联 的 字符 串 键 ， 我 们 要 获取 相同 键 关 联 的 所 有 值 的 和 ， 这 是 使 用 lambda 表达 式 表 示 的 归 
并 函数 实现 的 。 
ss 





5)]) 
rdd.reduceByKey (lambda a, b: 
# 结果 : 
OE Dh BG MG 
函数 reduceByKey 的 效率 比 groupBy 高 得 多 ， 因 为 归并 操作 是 可 并 行 化 的 ， 同 时 不 需要 
在 内 存 中 存储 分 组 。 另 外 , 它 还 避免 了 在 执行 器 之 间 传 输 数 据 ( 它 执 行 的 操作 与 本 章 前 面 介绍 的 
Dask 运算 符 foldby 类 似 )。 现 在 可 以 使 用 reduceByKey 重 写 计算 访问 次 数 的 代码 了 。 


(entries_rdd 
.map (lambda x: 


a + b).collect() 


4) ] 














(x['user'], 1)) 


计算 。 另 外 ， 还 使 用 了 运算 符 sortBy 


.reduceByKey (lambda a, b: a + b) 

.take(3)) 
# 结果 : 
# [(UUID('0604aab5-c7ba-4dq5b-ble0-16091052fp11')，536)， 
# (UUID('d72c81c1-83f9-4b3c-a21a-788736c9b2ea')，504)， 
# (UUID('e2el25fa-8984-4a9a-9cal-pb0620b1l1l3cdb')，498)] 





使 用 Spark 的 RDD API, 还 可 轻松 地 回答 下 面 这 样 的 问题 :网 站 在 每 天 中 都 被 访问 了 多 少 次 ? 
这 可 使 用 requceByKey 和 合适 的 键 ( 从 时 间 蕉 中 提取 的 日 期 ) 来 计算 。 下 面 的 示例 演示 了 如 何 











(entries_rdd 
.map (lambda x: 
.reduceByKey (lambda a, b: 
.SortByKey () 

.collect ()) 





(x['timestamp'] .date(), 1)) 


a + b) 


Key 将 返回 的 访问 次 数 按 日 期 排序 。 
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# 结果 : 

# [(datetime.date(2017, 1, 1), 1685), 
# (datetime.date(2017, 1, 2), 1625), 
# (datetime.date(2017, 1, 3), 1663), 
# (datetime.date(2017, 1, 4), 1643), 
# "(qatuetime, date(2Z0LTy 1 BO "L173L); 
# (datetime.date(2017, 1, 6), 1653)] 


8.3.4 Spark DataFrame 


对 于 数值 计算 和 分 析 任务 ，Spark 通过 模块 pyspark.sql (也 叫 SparkSQL ) 提供 了 一 个 便 
利 的 接口 。 这 个 模块 包含 一 个 spark.sql.DataFrame 类 ， 可 用 来 高 效 地 执行 SQL 式 查询 ， 就 
像 Pandas 中 那样 。 要 访问 SQL 接口 ， 可 创建 一 个 sparkSession 对 象 。 











from pyspark.sql import SparkSession 
spark = SparkSession.builder.getOrCreate!() 


然后 ， 通 过 这 个 对 象 调用 函数 createDataFrame 来 创建 一 个 DataFrame， 这 个 函数 将 一 
个 RDD、 列 表 或 pandas .DataFrame 作为 参数 。 


在 下 面 的 示例 中 ， 我 们 通过 转换 一 个 包含 一 系列 Row 实例 的 RDD ( rows ) 来 创建 一 个 
spark.sql.DataFrame。Row 实例 就 像 pa.DataFrame 中 的 行 一 样 ， 将 一 组 列 名 关联 到 一 组 
值 。 在 这 个 示例 中 ， 有 两 列 一 一 x 和 y， 我 们 将 它们 关联 到 随机 数 。 


# 使 用 前 面 定 义 的 x_rdd 和 y_rdd 
rows = rdd x.zip(rdd y) .map(lambda xy: Row(x=float (xy[0]), y=float (xy[1]))) 








rows .first() # 查看 第 一 个 元 素 
结果 : 
# Row(x=0.18432163061239137, y=0.632310101419016) 
a 2 就 可 将 它们 合并 成 一 个 DataFrame， 如 下 所 示 。 我 们 还 可 使 用 方法 
show 查看 这 个 DataFrame 的 内 容 。 











df = spark.createDataFrame (rows) 


df.show(5) 

# 输出 : 

和 tell lit ri + 
# | x| y| 
排 和 = Ee 十 
# 10.184321630612391371 0.632310101419016 | 
# | 0.81591455255779871 -0.9578448778029829 | 
# 1-0.65650502260330421 0.4644773453129496 | 
# 1-0.15661914765533181-0.115422119782164321 
# | 0.7536730082381564| 0.269530554760747171 
# + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 -一 一 一 一 一 一 十 
# 只 显示 了 前 5 行 
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spark.sql.DataFrame 支持 使 用 便利 的 SQL 语法 对 分 布 式 数据 集 执行 变换 。 例 如 ， 可 使 
用 方法 selectExpr 来 计算 SQL 表达 式 的 值 。 在 下 面 的 代码 中 , 我 们 使 用 了 x 和 y 列 以 及 SQL 
函数 pow 来 检查 是 否 击 中 。 
hits_df = df.selectExpr ("pow(x, 2) + Pow(y，2) < 1 as hits") 


hits_df.show(5) 
输出 : 








| truel 
lfalsel 
| truel 
| truel 
| truel 








只 显示 了 前 5 行 


为 了 演示 SQL 强大 的 表达 力 ， 我 们 还 可 使 用 一 个 表达 式 来 估算 pi 的 值 。 在 这 个 表达 式 中 ， 
使 用 了 sum、pow、cast 和 count 等 SQL 函数 。 

result = df.selectExpr('4 * sum(cast (pow(x, 2) + 

pow(y, 2) < 1 as int))/count(x) as pi') 

result.first() 

# 结果 : 

# Row(pi=3.13976) 

Spark SQL 的 语法 与 Hive 相同 。Hive 是 一 个 建立 在 Hadoop 基础 之 上 的 分 布 式 数据 集 SQL 
引 警 。 要 全 面 了 解 其 语法 ， 请 参阅 https://cwiki.apache.org/confluence/display/Hive/LanguageManual。 


要 通过 Python 接口 利用 Scala 的 威力 及 其 所 做 的 优化 ，DataFrame 是 绝 佳 的 途径 ， 其 中 的 
主要 原因 是 ,虽然 查询 在 名 义 上 是 由 SparkSQL 解释 的 ， 但 实际 上 是 直接 在 Scala 中 执行 的 ， 中 
间 结 果 不 会 经 过 Python。 这 极 大 地 降低 了 串 行 化 开销 ， 并 利用 了 SparkSQL 所 做 的 查询 优化 。 优 
化 和 查询 规划 让 你 能 够 使 用 SQL 运算 符 ， 如 GROUP BY， 同 时 不 会 像 直接 对 RDD 使 用 groupBy 
那样 降低 性 能 。 


















































8.4 使 用 mpi4py 执行 科学 计算 

虽然 Dask 和 Spark 是 很 出 色 的 技术 , 在 开行 业 得 到 了 广泛 使 用 ， 但 在 学 术 研 究 领 域 还 未 被 
广泛 采纳 。 在 学 术 界 , 几 十 年 来 一 直 使 用 包含 数 千 个 处 理 器 的 超级 计算 机 来 运行 执行 大 量 数 值 计 
算 的 应 用 程序 ， 因此 通常 超级 计算 机 运行 的 软件 截然 不 同 , 这 些 软件 专注 于 使 用 C、Fortran 力 至 
汇编 语言 等 低级 语言 实现 计算 密集 型 算法 。 


在 这 种 系统 上 , 用 来 实现 并 行 执行 的 主要 库 是 消息 传递 接口 ( MPI ), 这 个 接口 虽然 不 像 Dask 
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和 Spark 那样 便利 和 精致 ， 但 完全 能 够 表达 并 行 算法 并 获得 极 佳 的 性 能 。 请 注意 ， 不 同 于 Dask 
和 Spark，MPI 并 没有 采用 MapReduce 模型 ,因此 最 适合 用 来 运行 数 干 个 几乎 不 相互 发 送 数 据 的 
进程 。 

MPI 的 工作 原理 与 本 章 前 面 介 绍 的 截然 不 同 。 在 MPI 中 ， 并 行 性 是 通过 在 多 个 可 能 位 于 不 
同 节 点 上 的 进程 中 运行 同一 个 脚本 实现 的 ; 进程 之 间 的 通信 和 同步 由 一 个 专门 的 进程 处 理 , 这 个 
进程 通常 被 称 为 根 (root )， 并 由 ID 0 标识 。 

在 本 节 中 ,我 们 将 以 mpi4py (Python MPI 接 口 ) 为 例 ,， 初 略 地 演示 主要 的 MPI 概 念 。 下 面 的 


示例 演示 了 使 用 MPI 编写 的 最 简单 的 代码 。 这 些 代 码 导入 模块 MPI， 并 获取 coMM_WORLD 一 一 
一 个 可 用 来 与 其 他 MPI 进程 交互 的 接口 。 函 数 Get_rank 返回 当前 进程 的 整 型 标识 符 : 






























































from mpi4py import MPI 


Comm = MPI .COMM_ WORLD 
rank = comm.Get_rank() 
print ("This is process", rank) 


我 们 可 将 这 些 代 码 放 在 文件 mpi_example.py 中 , 并 执行 这 个 文件 。 运行 这 个 脚本 通常 不 会 做 
任何 特殊 的 事情 ， 因 为 它 只 在 一 个 进程 中 执行 。 


$ Python mpi example.py 
This is process 0 


MPI 作业 应 该 使 用 命令 mpiexec 来 执行 ， 这 个 命令 包含 指定 并 行进 程 数 的 选项 -n。 使 用 下 
面 的 命令 运行 这 个 脚本 将 生成 4 个 不 同 的 进程 ， 它 们 执行 同一 个 脚本 ，ID 各 不 相同 。 











$ mpiexec -n 4 python mpi example.py 
This is process 0 

This is process 
This is process 
This is process 


通过 使 用 资源 管理 器 《如 TORQUE )， 进 程 将 自动 分 散 到 网 络 中 。 通 常 ， 超 级 计算 机 都 是 
系统 管理 员 配 置 的 ， 他 们 会 提供 有 关 如 何 运 行 MPI 软件 的 说 明 。 


为 了 证 你 感觉 一 下 MPI 程序 是 什么 样 的 ， 我们 再 次 来 实现 pi 值 估算 。 完 整 的 代码 如 下 面 所 
示 。 这 个 程序 所 做 的 工作 如 下 。 


为 每 个 进程 创建 一 个 长 度 为 N / n_procs 的 随机 数组 ， 让 每 个 进程 检查 相同 数量 的 样本 
(n_procs 是 使 用 函数 Get_size 获得 的 )。 

口 在 每 个 进程 中 , 计算 击 中 检查 结果 之 和 , 并 将 其 存储 在 hits_counts 中 , 它 表 示 每 个 进 
程 检 查 到 的 击 中 次 数 。 

口 使 用 函数 reduce 计算 所 有 进程 检查 到 的 击 中 次 数 之 和 。 使 用 reduce 时 , 需要 指定 使 用 
参数 root 来 指定 哪个 进程 将 收 到 结果 。 


WP ID 
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只 在 根 进程 中 打印 最 终结 


from mpi4py import MPI 


Comm = MPI.COMM_ WORLD 
rank = comm.Get_rank() 


import numpy as np 
证 二 QOQ0 
n_procs = comm.Get_sizel() 


print ("This is process", rank) 


# 创建 一 个 数组 
x_part = np.random.uniform(-1, 1, int (N/n_procs)) 
y_part = np.random.uniform(-1, 1, int (N/n_procs)) 


hits_part 3 x _ part**2 4+ ypart**2 < 1 
hits_count = hits_part.sum() 


print ("partial counts", hits_count) 


total_counts = comm.reduce(hits_count, root=0) 


if rank == 
DEInt( Total lits, totalreountes) 
print ("Final result:", 4 * total_counts/N) 


现在 可 以 将 上 述 代 码 放 在 文件 mpi_pi.py 中 ， 并 使 用 mpi exec 来 执行 这 个 文件 。 输 出 表明 ， 
在 reduce 调用 前 ， 四 个 进程 同时 执行 。 





$ mpiexec -n 4 python mpi pi.py 
This is process 3 
partial counts 1966 
This is process 1 
partial counts 1944 
This is process 2 
partial counts 1998 
This is process 0 
partial counts 1950 
Total hits: 7858 
Final result: 3.1432 





8.5 小结 


分 布 式 处 理 可 通过 在 计算 机 集群 中 分 配 小 型 任务 , 实现 能 够 处 理 超大 数据 集 的 算法 。 多 年 来 ， 
为 实现 性 能 卓越 而 又 可 靠 的 分 布 式 软件 ， 开 发 出 了 Apache Hadoop 等 众多 软件 包 。 
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本 章 介绍 了 Dask 和 PySpark 等 Python 包 的 架构 和 用 法 ， 它 们 提供 了 功能 强大 的 API， 让 你 
能 够 设计 可 在 数 百 台 计 算 机 上 运行 的 程序 。 我 们 还 简要 地 介绍 了 MPI 库 ， 几 十 年 来 它 一 直 用 于 
在 超级 计算 机 ( 用 于 学 术 研 究 ) 上 分 配 工作 。 














到 目前 为 止 , 本 书 探索 了 多 种 程序 性 能 改进 方法 , 使 用 这 些 方法 可 提高 程序 的 速度 ,并 使 其 
能 够 处 理 更 大 的 数据 集 。 下 一 章 将 介绍 编写 和 维护 高 性 能 代码 的 策略 和 最 佳 实践 。 
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高 性 能 设计 











在 前 几 章 ， 我 们 学 习 了 如 何 使 用 Python 标准 库 和 第 三 方 包 中 的 各 种 工具 ,来 评估 和 改善 
Python 应 用 程序 的 性 能 。 本 章 将 提供 有 关 如 何 设 计 各 种 应 用 程序 的 一 般 性 指南 , 并 演示 一 些 被 多 
个 Python 项 目 采 用 的 最 佳 实践 。 

本 章 介 绍 如 下 主题 : 

口 为 普通 应 用 程序 、 数 值 计算 应 用 程序 和 大 数据 应 用 程序 选择 合适 的 性 能 优化 策略 ; 
口 组 织 Python 项 目 ; 

口 使 用 虚拟 环境 和 容器 隔离 Python; 

口 使 用 Travis CI 实现 持续 集成 。 

















9.1 选择 合适 的 策略 


可 用 于 改善 程序 性 能 的 包 很 多 , 但 如 何 确定 程序 的 最 佳 优 化 策略 呢 ? 该 使 用 哪 种 优化 方式 取 
决 于 很 多 因素 ， 本 章 将 力图 基于 应 用 程序 的 类 型 尽 可 能 全 面 地 回答 这 个 问题 。 


首先 要 考虑 的 是 应 用 程序 的 类 型 。Python 语言 被 用 于 众多 不 同 的 领域 ， 包 括 Web 服务 、 系 
统 脚 本 、 游 戏 、 机 顺 学 习 等 。 对 于 不 同 的 应 用 程序 ， 需 要 优化 的 部 分 也 不 同 。 


例如 ， 对 于 Web 服务 ， 可 通过 优化 使 其 响应 时 间 极 短 ; 它 还 必须 能 够 处 理 尽 可 能 多 的 请 求 ， 
同时 使 用 尽 可 能 少 的 资源 〈 即 尽 可 能 缩短 延迟 )。 而 数值 计算 代码 可 能 需要 几 周 才能 运行 完毕 ， 
因此 提高 系统 能 够 处 理 的 数据 量 很 重要 ， 即 便 启 动 开销 很 大 也 无 妨 ( 在 这 种 情况 下 , 我 们 在 乎 的 
是 吞吐 量 )。 

男 一 个 方面 是 开发 的 应 用 程序 要 在 什么 平台 和 体系 结构 中 运行 。 Python 支持 很 多 平台 和 体系 
结构 , 但 很 多 第 三 方 库 对 有 些 平台 的 支持 可 能 有 限 , 尤其 是 涉及 C 语言 扩展 的 包 。 因 此 ,必须 核 
实 原本 打算 使 用 的 库 是 否 可 用 于 目标 平台 和 体系 结构 。 


另外， 有些 体系 结构 ( 如 授 入 式 系 统 和 小 型 设备 ) 的 CPU 处 理 能 力 和 内 存 可 能 有 限 。 这 是 
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一 个 必须 考虑 的 重要 因素 ,因为 有 些 技 术 ( 如 多 处 理 ) 可 能 会 消耗 太 多 内 存 , 或 者 要 求 执行 额外 
的 软件 。 


最 后 ， 业 务 需求 也 同样 重要 。 在 很 多 情况 下 ， 软 件 产 品 必须 快速 迭代 ， 并 能 够 快速 修改 其 
代码 。 一 般 而 言 ， 你 希望 软件 栈 尽 可 能 小 ， 这 样 才 可 能 在 短 时 间 内 完成 修改 、 测 试 和 部 署 以 及 
添加 对 其 他 平台 的 支持 。 这 也 适用 于 团队 开发 一 一 安装 软件 栈 和 为 开发 做 好 准备 的 工作 应 尽 可 
能 容易 。 有 鉴于 此 , 通常 应 选择 使 用 纯粹 的 Python 库 , 而 不 是 扩展 ,但 久 经 考验 的 库 ( 如 NumpPy ) 
可 能 例外 。 田 外 ， 很 多 业务 方面 决定 了 应 首先 优化 哪些 操作 ( 千 万 不 要 忘 了， 过 早 优化 是 万 恶 
之 源 )。 

















9.1.1 普通 应 用 程序 


Web 应 用 和 移动 应 用 后 端 等 普通 应 用 程序 , 通常 需要 调用 远程 服务 和 数据 库 。 在 这 种 情况 下 ， 
使 用 异步 框架 ( 如 第 6 章 介绍 的 框架 ) 可 能 大 有 神 益 , 因为 这 将 改善 应 用 程序 的 逻辑 、 系 统 设计 、 
响应 速度 等 ， 还 将 简化 网 络 故障 的 处 理工 作 。 


使 用 异步 编程 还 让 微服 务实 现 和 使 用 起 来 更 容易 。 微 服务 虽然 没有 权威 的 定义 , 但 可 将 其 视 
为 专注 于 应 用 程序 某 个 方面 的 远程 服务 ， 如 身份 验证 。 


微服 务 背 后 的 理念 是 ， 可 将 通过 简单 协议 (如 gRPC 和 REST 调 用 , 或 专用 消息 队列 ) 进行 
通信 的 微服 务 组 合 起 来 ， 从 而 打造 出 应 用 程序 。 这 种 体系 结构 与 单 体 应 用 程序 完全 不 同 。 在 单 体 
应 用 程序 中 ， 所 有 的 服务 都 是 由 同一 个 Python 进程 处 理 的 。 


微服 务 的 优点 之 一 在 于 ， 应 用 程序 的 不 同 部 分 完全 解 而 。 简 单 的 小 型 服务 可 由 不 同 的 团队 
实现 和 维护 ， 还 可 在 不 同 的 时 间 进 行 更 新 和 部 署 。 这 样 就 能 够 轻松 地 复制 微服 务 ， 以 便 处 理 更 
多 的 用 户 。 另 外 ， 由 于 通信 是 通过 简单 协议 进行 的 ， 因 此 可 使 用 比 Python 更 合适 的 语言 来 实现 
微服 务 。 
如 果 对 服务 的 性 能 不 满意 ， 通 常 可 在 不 同 的 Python 解释 器 (如 PyPy ) 上 执行 应 用 程序 (条 
件 是 所 有 第 三 方 扩展 都 是 兼容 的 )， 以 获得 足够 的 速度 提升 。 如 果 这 样 做 不 可 行 ， 通 过 调整 算法 
策略 并 将 瓶 贷 部 分 移植 到 Cython， 通 常 足以 获得 满意 的 性 能 。 
















































































































































































9.1.2 数值 计算 代码 


如 果 你 要 编写 的 是 数值 计算 代码 ， 一 种 极 好 的 策略 是 一 开始 就 使 用 NumPy。 使 用 NumPy 是 
一 种 稳妥 的 选择 ， 因 为 它 可 用 于 很 多 平台 并 久 经 考验 ,而 且 正 如 你 在 本 书 前 面 看 到 的 ,很 多 其 他 
的 包 都 将 NumPy 数组 视 为 一 等 公民 。 


只 要 妥善 地 编写 (如 使 用 第 2 章 介 绍 的 广播 等 技术 )，NumPy 的 性 能 几乎 能 够 与 C 代码 的 性 
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能 媲美 ， 无 须 进 一 步 优 化 。 虽 然 如 此 ， 有 些 算法 使 用 NumPy 数据 结构 和 方法 难以 高 效 地 表示 。 
在 这 种 情况 下 ， 两 个 很 不 错 的 选择 是 Numba 或 Cython。 


Cython 是 一 个 非常 成 熟 的 工具 , 被 很 多 重要 的 项 目 广泛 采用 , 如 scipy 和 scikit-learn。 
Cython 代码 包含 显 式 的 静态 类 型 声明 , 因此 很 容易 理解 , 大 多 数 Python 程序 员 都 能 学 会 其 语法 。 
另外 , 神奇 而 良好 的 查看 工具 让 程序 员 能 够 轻松 地 预测 性 能 , 并 就 怎样 修改 将 最 大 限度 地 提高 性 
能 做 出 有 根据 的 猜测 。 


然而 ，Cython 也 有 一 些 缺 点 。 执 行 Cython 代码 前 必须 编译 ， 这 破坏 了 Python 便利 的 编辑 
运行 周期 。 这 还 要 求 必 须 有 用 于 目标 平台 的 兼容 C 编译 器 。 另 外 , 这 还 导致 分 发 和 部 署 工 作 更 复 
杂 ， 因 为 需要 测试 多 个 平台 、 体 系 结构 、 配 置 和 编译 带 。 


另 一 方面 ， Numba API 只 要 求 定 义 纯粹 的 Python 函数 ， 而 这 些 函 数 将 被 动态 地 编译 ， 从 而 
保留 了 Python 快速 的 编辑 -运行 周期 。 一 般 而 言 , Numba 要 求 目 标 平台 安装 了 LLVM 工具 链 。 请 
注意 ,在 0.30 版 中 ， 对 预先 ( AOT ) 编译 Numba 函数 提供 了 一 定 的 支持 ， 因 此 可 打包 并 部 署 编 
译 好 的 Numba 函数 ， 这 样 就 不 用 在 目标 平台 上 安装 Numba 和 LLVM。 


请 注意 , 包 管理 器 conga 以 打 好 包 的 方式 提供 Numba 和 Cython, 包 中 包含 所 有 的 依赖 ( 包 
括 编译 器 )， 因 此 在 可 使 用 包 管理 器 conga 的 平台 上 ， 部 署 Cython 的 工作 得 以 极 大 地 简化 。 
















































































































































































如 果 Cython 和 Numba 无 法 胜任 , 还 可 采取 另 一 种 策略 : 实现 一 个 纯粹 的 C 语言 
息 模块 ( 这 种 模块 可 使 用 编译 器 标志 或 手工 调整 进一步 优化 )， 并 在 Python 模块 中 
通过 cffi 包 或 Cython 来 使 用 它 ， 但 通常 不 需要 这 样 做 。 


使 用 NumPy、Numba 和 Cython 是 非常 有 效 的 策略 , 对 于 串 行 代码 , 几乎 可 获得 最 优 的 性 能 。 
对 很 多 应 用 程序 来 说 ,使 用 串 行 代码 就 足够 了 ， 即 便 最 终 决定 使 用 并 行 算 法 ,开发 出 串 行 参考 实 
现 也 是 非常 值得 的 ， 这 样 可 方便 调试 ， 因 为 在 数据 集 较 小 的 情况 下 ， 串 行 实现 的 速度 通常 更 快 。 


并 行 实现 的 复杂 性 随 应 用 程序 的 不 同 差别 很 大 。 在 很 多 情况 下 , 对 于 可 轻松 地 表示 为 一 系列 
独立 计算 和 某 种 聚合 的 程序 ， 可 使 用 基于 进程 的 简单 接口 (如 multiprocessing.Pool 或 
ProcessPoolExecutor ) 进行 并 行 化 , 这些 接口 的 优点 是 不 用 费 多 大 力气 就 能 并 行 地 执行 普通 
Python 代码 。 


为 避免 启动 多 个 进程 的 时 间 和 内 存 开销 ， 可 使 用 线程 。NumPy 函数 通常 会 释放 GIL， 因 此 
非常 适合 采用 基于 线程 的 并 行 化 。 男 外 ，Cython 和 Numba 提供 了 特殊 的 nogil 语句 和 并 行 自动 
化 ， 因 此 它们 适合 用 于 简单 的 轻 量 级 并 行 化 。 

对 于 更 复杂 的 情况 ， 可 能 必须 大 刀 阔 答 地 修改 算法 。 在 这 种 情况 下 ，Dask 数组 是 不 错 的 选 
择 ， 它 几乎 是 标准 NumPy 的 简单 蔚 代 品 。Dask 还 有 另 一 个 优点 ， 那 就 是 其 操作 非常 透明 ， 因 此 
很 容易 调整 。 
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大 量 使 用 线性 代数 例 程 的 专用 应 用 程序 ( 如 深度 学 习 和 计算 机 图 形 学 应 用 程序 ) 可 能 受益 于 
Theano 和 Tensorflow 等 包 ， 这 些 包 性 能 卓越 ， 能 够 自动 并 行 化 且 内 置 了 GPU 支持 。 

最 后 ， 要 将 并 行 的 Python 脚本 部 署 到 基于 MPI 的 超级 计算 机 ( 通常 供 高 校 的 研究 人 员 使 用 )， 
可 使 用 mpi4py 包 。 











9.1.3 ”大 数据 


大 型 数据 集 ( 通常 超过 1TB ) 日 益 普遍 ， 目 前 已 为 开发 能 够 收集 、 存 储 和 分 析 这 种 数据 集 的 
技术 ， 投 入 了 大 量 的 资源 。 通 常 ， 根 据 这 些 数据 原本 是 如 何 存储 的 来 决定 选择 使 用 哪 种 框架 。 


在 很 多 情况 下 , 单 台 计算 机 无 法 存储 整个 数据 集 , 但 通过 采取 合适 的 策略 ， 无 须 研究 整个 数 
据 集 就 能 找到 问题 的 答案 。 例 如， 可 提取 一 小 部 分 感 兴趣 的 数据 ( 这 些 数 据 可 轻松 地 加 载 到 内 存 
中 ), 再 使 用 方便 而 出 色 的 库 ( 如 Pandas ) 进行 分 析 , 这样 很 可 能 能 够 回答 问题 。 对 于 业务 问题 ， 
通过 筛选 或 随机 采集 数据 点 ， 通 常 可 找到 足够 准确 的 答案 ， 而 无 须 求助 于 大 数据 工具 。 


如 果 公 司 的 大 部 分 软件 都 是 使 用 Python 编写 的 ， 且 你 对 使 用 什么 样 的 软件 栈 有 决定 权 ， 则 
使 用 Dask distributed 是 个 不 错 的 选择 。 这 个 软件 包 安 装 起 来 非常 简单 ， 且 与 Python 生态 系统 集 
成 紧密 。 使 用 Dask 数组 和 DataFrame 时 ， 很 容易 通过 修改 NumPy 和 Pandas 代码 来 改善 既 有 
Python 算法 的 性 能 。 


如 果 公司 已 搭建 了 Spark 集群 ，PySpark 将 是 最 佳 的 选择 。 如 果 要 进一步 提高 性 能 ， 可 使 用 
SparkSQL。Spark 的 优点 之 一 是 ， 人 允许 你 使 用 其 他 的 语言 ， 如 Scala 和 Java。 































































































9.2 ”组织 代码 


典型 Python 项 目的 仓库 结构 至 少 包含 一 个 目录 ,这 个 目录 包含 如 下 内 容 : 文 件 README.md; 
一 个 Python 模块 或 包 , 其 中 包含 应 用 程序 或 库 的 源 代码 ; 一 个 setup.py 文 件 。 项 目 还 可 能 遵循 其 
他 约定 ， 以 便 符合 公司 的 策略 或 使 用 的 框架 的 要 求 。 本 节 将 介绍 社区 驱动 的 Python 项 目 (包括 
本 书 前 面 介 绍 的 一 些 工 具 ) 常 采 取 的 一 些 做 法 。 


下 面 是 一 个 名 为 myapp 的 Python 项 目的 典型 目录 结构 ; 
































myapp/ 
README .md 
LICENSE 
setup.py 
myapp/ 
Se 9 oo 9 
mogdulel .py 
cmodulel .pyx 
module2/ 
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三 
src/ 
module.c 
module.h 
tests/ 
TIE BY 
test_modulel .py 
test_module2.py 
benchmarks/ 
init .py 
test_modulel .py 
test_module2 .py 
docs/ 
tools/ 


下 面 来 详细 说 说 其 中 的 每 个 文件 和 目录 。 


README.md 是 一 个 文本 文件 ， 包 含有 关 软 件 的 一 般 性 信息 ， 如 项 目 范围 、 安 装 方法 、 简 
明教 程 和 有 用 的 链接 。 如 果 软 件 是 公开 发 行 的 ， 还 有 一 个 LICENSE 文件 ， 其 中 包含 使 用 条 款 和 
条 件 。 


通过 使 用 setuptools 库 将 Python 软件 打包 到 一 个 名 为 setup.py 的 文件 中 。 正 如 你 在 本 书 
前 面 看 到 的 ，setup.py 也 是 一 种 编译 并 分 发 Cython 代码 的 有 效 方式 。 


myapp 包 包 含 应 用 程序 的 源 代码 ， 其 中 包括 Cython 模块 。 在 有 些 情况 下 ， 除 优化 的 Cython 
实现 外 ,保留 纯粹 的 Python 实现 可 提供 便利 。 通 常 ，Cython 版 模块 的 名 称 以 字母 c 打头 (如 上 
述 示例 中 的 cmodulel .pyx )。 


如 果 需 要 外 部 .c 和 .h 文件， 这 些 文件 通常 存储 在 项 目 顶 级 目录 (myapp ) 下 的 目录 src/ 中 。 


目录 tests/ 包 含 应 用 程序 的 测试 代码 〈 通常 为 单元 测试 )， 可 使 用 测试 运行 顺 〈 如 unittest 
或 pytest ) 来 运行 它们 。 然 而 ， 有 些 项 目 选择 将 目录 tests/ 放 在 myapp 包 中 。 由 于 高 性 能 代码 
需要 反复 调整 和 重 写 ,必须 有 可 靠 的 测试 套件 ,这样 才 能 尽早 发 现 bug， 并 缩短 测试 -编辑 -运行 
周期 ， 进 而 改善 开发 体验 。 


基准 测试 程序 可 放 在 目录 benchmarks 中 。 共 准 测试 程序 的 执行 时 间 可 能 很 长 ， 通 过 将 基准 
测试 程序 与 测试 分 开 ， 可 避免 测试 时 间 太 长 。 也 可 在 构建 服务 器 (参见 9.4 节 ) 上 运行 基准 测试 
程序 , 将 此 作为 一 个 比较 不 同 版 本 性 能 的 简单 方式 。 虽 然 基准 测试 程序 的 运行 时 间 通 常 比 单元 测 
试 长 , 但 最 好 让 其 执行 时 间 尽 可 能 短 ， 以 免 浪费 资源 。 


最 后 , 目录 docs/ 包 含 用户 和 开发 文档 以 及 API 参考 ,通常 还 包含 文档 工具 (如 sphinx ) 的 
配置 文件 。 其 他 工具 和 脚本 可 放 在 目录 tools/ 中 。 
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9.3 隔离、 虚拟 环境 和 容器 


在 隔离 环境 中 测试 和 执行 代码 很 重要 ， 因 为 这 样 才能 准确 地 告诉 朋友 如 何 运行 你 的 Python 
脚本 : 安装 Python X 版 以 及 依赖 包 Y 和 和 X， 再 将 脚本 复制 到 计算 机 中 并 执行 它 。 


在 很 多 情况 下 ， 你 的 朋友 会 去 下 载 用 于 其 平台 的 Python 和 依赖 库 ， 再 尝试 执行 脚本 。 然 而 ， 
脚本 很 可 能 运行 失败 ,因为 朋友 的 计算 机 安装 的 操作 系统 与 你 的 不 同 , 或 者 他 安装 的 库 版 本 与 你 
安装 的 不 同 ， 还 可 能 他 以 前 安装 的 库 没 有 妥善 地 删除 ， 导 致 难以 发 现 的 冲突 和 很 多 麻烦 。 


为 避免 这 种 情况 发 生 , 一 种 非常 简单 的 办 法 是 使 用 虚拟 环境 。 虚 拟 环境 将 Python 、 相 关 的 可 
执行 文件 和 第 三 方 包 隔离 ， 让 你 能 够 创建 和 管理 多 个 Python 安装 。 从 Python 3.3 起 ,标准 库 包含 
模块 venv( 以 前 名 为 virtualenv )， 这 是 一 个 设计 用 于 创建 和 管理 隔离 环境 的 工具 。 在 基于 
venv 的 虚拟 环境 中 ， 可 使 用 setup.py 文件 或 pip 来 安装 Python 包 。 

对 于 高 性 能 代码 , 准确 而 详细 地 指出 使 用 的 是 哪个 版 本 的 库 至 关 重 要 。 库 会 随 新 版 本 的 推出 
而 发 展 ， 而 算法 的 变换 将 极 大 地 影响 性 能 。 例 如 ，scipy 和 scikit-learn 等 流行 的 库 经 常 将 
其 代码 和 数据 结构 移植 到 Cython， 因 此 要 获得 最 佳 的 性 能 ， 用 户 必须 安装 正确 版 本 的 库 。 

















































































































9.3.1 使 用 conda 环境 


在 大 多 数 情况 下 ,使 用 venv 就 挺 好 ， 但 编写 高 性 能 代码 时 ， 经 常会 遇 到 这 样 的 情况 : 有 些 
高 性 能 库 要 求 安装 非 Python 软件 。 这 通常 要 求 进一步 设置 编译 器 以 及 Python 包 链 接 的 高 性 能 原 
生 库 (它们 是 使 用 C、C++ 或 Fortran 编写 的 )。 由 于 venv 和 pip 只 能 处 理 Python 包 ， 因 此 这 些 
工具 无 法 处 理 这 样 的 情况 。 

包 管 理 髓 conda 是 专门 为 应 对 这 种 情形 而 创建 的 。 要 使 用 conqa 创建 虚拟 环境 ， 可 使 用 命 
令 conda create。 这 个 命令 接受 一 个 -n 参数 ( -n 表示 --name， 给 新 创建 的 环境 指定 标识 符 ) 
以 及 要 安装 的 包 。 例 如， 要 创建 一 个 使 用 Python 3.5 和 最 新 版 NumPy 的 环境 ， 可 使 用 如 下 命令 : 


















































$ conda create -n myenv Python=3.5 numpy 


conda 会 负责 从 其 仓库 中 获取 相关 的 包 ， 并 将 它们 放 在 一 个 隔离 的 Python 安装 中 。 要 启用 
虚拟 环境 ， 可 使 用 命令 source activate。 











$ source activate myenv 


执行 这 个 命令 后 ， 默 认 的 Python 解释 器 将 设置 为 前 面 指定 的 版 本 。 要 核实 Python 可 执行 文 
件 的 位 置 ， 可 使 用 命令 which， 它 返回 这 个 可 执行 文件 的 完整 路 径 。 








(myenv) $ which python 
/home/gabriele/anaconda/envs/myenv/bin/python 
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现在 ， 你 可 在 虚拟 环境 中 随便 添加 、 删 除 和 修改 包 ， 而 不 会 影响 全 局 Python 安装 。 要 安装 
其 他 的 包 ， 可 使 用 命令 conda install <package name>, 也 可 使 用 pipo 


虚拟 环境 的 优点 在 于 , 你 能 够 以 隔离 的 方式 安装 和 编译 任何 软件 。 这 意味 着 如 果 虚 拟 环境 因 
某 种 原因 受 损 ， 你 可 推倒 重 来 。 


要 删除 虚拟 环境 myenv， 需 要 先 禁用 它 ， 再 使 用 命令 conda env remove， 如 下 所 示 。 























(myenv) $ source deactivate 
$ conda env remove -n myenv 


如 果 标 准 conda 仓库 中 没有 要 安装 的 包 ， 该 怎么 办 呢 ? 一 种 选择 是 看 看 社区 频道 
conda-forge 有 没有 。 要 在 conda-forge 中 搜索 包 ， 可 使 用 命令 conda search 并 指定 选项 
-c (表示 --channel )。 








$ conda search -c conda-forge scipy 


这 个 命令 将 列 出 一 系列 与 查询 字符 串 scipy 匹配 的 包 及 其 版 本 。 男 一 种 选择 是 在 Anaconda 
Cloud 上 托管 的 公共 频道 中 搜索 。 要 下 载 Anaconda Cloud 命令 行 客户 端 ， 可 安装 anaconda- 
client 包 。 


$ conda install anaconda-client 


安装 命令 行 客户 端 anaconda 后 ， 就 可 使 用 它 来 搜索 包 了 。 下 面 的 示例 演示 了 如 何 查找 


chemview 包 。 





$ anaconda search chemview 
Using Anaconda API: https://api.anaconda.org 
Run 'anaconda Show <USER/PACKAGE>' to get more details: 


Packages: 
Name | Version | Package Types | Platforms 
让 ] 之 
cjs14/chemview | 0.3 | conda | linux-64, win-64, 
Osx-64 
: WebGL Molecular Viewer for IPython 
notebook. 
gabrielelanaro/chemview 1 0.7 | conda | linux-64, osx-64 
: WebGL Molecular Viewer for IPython 
notebook. 


然后 就 可 通过 指定 合适 的 频道 和 选项 -c， 轻 松 进行 安装 了 。 


$ conda install -c gabrielelanaro chemlab 


9.3.2 ”虚拟 化 和 容器 
很 久 以 前 , 虚拟 化 就 已 面世 , 它 让 你 能 够 在 同一 台 计 算 机 中 运行 多 个 操作 系统 ， 以 更 好 地 利 9 
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用 物理 资源 。 


要 实现 虚拟 化 ， 一 种 方式 是 使 用 虚拟 机 。 虚 拟 机 创建 虚拟 硬件 资源 ， 如 CPU 、 内 存 和 设备 ， 
并 且 使 用 它们 在 同一 台 计 算 机 上 安装 并 运行 多 个 操作 系统 。 要 实现 虚拟 化 , 可 在 一 个 操作 系统 上 
安装 hypervisor 应 用 程序 。 这 个 操作 系统 被 称 为 宿主 (host )。hypervisor 能 够 创建 、 管 理 和 监视 
虚拟 机 及 其 操作 系统 (被 称 为 来 宾 ，guest )。 








需要 指出 的 是 ， 虚 拟 环境 虽然 包含 “虚拟 ”二 字 , 但 与 虚拟 机 没有 任何 关系 。 虚 
拟 环境 是 Python 特有 的 ， 通 过 shell 脚本 来 设置 不 同 的 Python 解释 器 。 





容器 是 一 种 隔离 应 用 程序 的 方式 , 它 创 建 一 个 独立 于 宿主 操作 系统 的 环境 , 其 中 只 包含 必要 
的 依赖 。 容 器 是 一 个 操作 系统 特性 , 让 你 能 够 在 多 个 实例 之 间 共 享 操作 系统 内 核 提供 的 便 件 资源 。 
容器 不 同 于 虚拟 机 ， 因 为 它 不 抽象 硬件 资源 ， 而 只 分 享 操作 系统 内 核 。 


在 利用 硬件 方面 ， 容 器 的 效率 极 高 ， 因 为 它 通 过 内 核 以 原生 方式 访问 便 件 。 因 此 ， 对 高 性 能 
应 用 程序 来 说 ， 容 需 是 极 佳 的 解决 方案 。 容 需 还 可 快速 地 创建 和 删除 ,可 用 于 以 隅 离 的 方式 快速 
测试 应 用 程序 。 容 器 还 可 用 来 简化 部 署 工作 ( 尤其 是 微服 务 )， 以 及 开发 构建 服务 器 ， 如 前 一 节 
提 到 的 构建 服务 器 。 


在 第 8 章 ， 我 们 使 用 Docker 轻松 地 搭建 了 一 个 PySpark 环境 。Docker 是 当前 最 受 欢迎 的 容 
器 化 解决 方案 之 一 。 要 安装 Docker， 最 佳 的 方式 是 按 官网 上 的 说 明 操 作 。 安 装 后 就 可 轻松 地 使 
用 其 命令 行 界面 来 创建 和 管理 容器 。 


要 启动 一 个 新 容器 ， 可 使 用 命令 docker run。 在 接 下 来 的 示例 中 ， 我 们 将 演示 如 何 使 用 
docker run 在 一 个 Ubuntu 16.04 容器 中 执行 shell 会 话 。 为 此 ， 需 要 指定 如 下 参数 。 


口 -i 指定 我 们 要 启动 一 个 交互 式 会 话 。 也 可 以 非 交 互 方式 执行 docker 命令 ( 如 启动 Web 
服务 器 )。 

口 -t <image name> 指 定 要 使 用 哪个 系统 镜像 。 在 下 面 的 示例 中 ， 我 们 使 用 的 是 镜像 
Ubuntu:16.04。 

口 /bin/bash 是 要 在 容器 中 运行 的 命令 ， 如 下 所 示 。 



















































































$ docker run -i -t ubuntu:16.04 /bin/bash 
root@585f53e77ce9:/# 


这 将 命令 将 立即 带 我 们 进入 一 个 隔离 的 shell, 我 们 可 在 其 中 把 玩 系统 和 安装 软件 , 而 不 会 影 
响 宿主 操作 系统 。 要 在 不 同 的 Linux 版 本 中 测试 安装 和 部 署 ， 使 用 容器 是 一 种 极 佳 的 方式 。 使 用 
完 这 个 交互 式 shell 后 ， 可 执行 命令 exit 返回 宿主 系统 。 

在 前 一 章 运 行 可 执行 文件 pyspark 时 ， 我 们 还 使 用 了 分 离 选项 -a 和 端口 选项 -bp。 选 项 -a 只 
是 让 Docker 在 后 台 运 行 命令 。 选 项 -pb <host_port>:<guest_port> 是 必 不 可 少 的 ， 它 将 宿主 
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操作 系统 的 一 个 网 络 端口 映射 到 来 宾 系统 ; 如 果 没 有 这 个 选项 , 在 宿主 系统 中 运行 的 浏览 器 将 无 
法 访问 Jupyter notebook。 


要 监视 容器 的 状态 ， 可 使 用 命令 docker ps， 如 下 面 的 代码 所 示 。 选 项 -a (表示 all ) 指定 
输出 所 有 容器 的 信息 ， 而 不 管 它们 当前 是 否 在 运行 。 

$ docker ps -a 

CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES 


585f53e77ce9 ubuntu:16.04 "/bin/bash" 2 minutes ago Exited (0) 2 
minutes ago pensive hamilton 


docker ps 提供 的 信息 包括 一 个 用 十 六 进 制 数 表示 的 标识 符 ( 585f53e77ce9 )， 还 有 方便 
Cz 


人 类 阅读 的 容器 名 (pensive_hamilton )。 在 其 他 docker 命令 中 ， 它 们 都 可 用 来 指定 容 需 。 
输出 中 还 包含 其 他 信息 ， 如 执行 的 命令 、 创 建 时 间 以 及 容器 的 当前 状态 。 














Pr HU 


要 恢复 执行 已 退出 的 容器 ， 可 使 用 命令 docker start。 要 让 容器 访问 shell， 可 使 用 命令 
docker attach。 在 这 两 个 命令 中 ， 可 使 用 ID 来 指定 容 需 ， 也 可 使 用 名 称 来 指定 容 需 。 








$ docker start pensive hamilton 
pensive hamilton 

$ docker attach pensive hamilton 
root@585f53e77ce9:/# 


要 删除 容器 很 容易 ， 只 需 使 用 命令 aocker rm 并 指定 容器 的 标识 符 即 可 。 





$ docker rm pensive hamilton 

如 你 所 见 ， 你 可 随便 执行 命令 , 和 运行、 停止 和 恢复 容器 ,完成 这 些 操 作 所 需 的 时 间 都 不 超过 
1 秒 钟 。 要 测试 代码 和 尝试 使 用 新 包 , 同时 又 不 影响 宿主 操作 系统 ,交互 地 使 用 Docker 容器 是 一 
种 绝 佳 的 方式 。 由 于 可 同时 运行 很 多 容器 ,Docker 还 可 用 来 模拟 分 布 式 系统 ( 以 便 进行 测试 和 学 
习 )， 而 不 要 求 有 昂贵 的 计算 集群 。 


Docker 还 让 你 能 够 创建 自己 的 系统 镜像 ， 这 对 分 发 、 测 试 、 部 署 和 编写 文档 很 有 用 。 下 一 小 


节 将 介绍 这 个 主题 。 









































创建 Docker 镜像 

Docker 镜像 是 预先 配置 好 的 可 直接 使 用 的 系统 。DockerHub 是 一 个 Web 服务 ，Docker 包 的 
维护 者 将 可 直接 使 用 的 镜像 上 传 到 这 里 ， 供 你 用 来 测试 和 部 署 各 种 应 用 程序 。 要 访问 并 安装 
DockerHub 提供 的 Docker 镜像 ， 可 使 用 命令 docker run。 





























WR 


要 创建 Docker 镜像， 一 种 方式 是 对 既 有 容器 执行 命令 docker commit。 这 个 命令 将 一 个 容 
器 引用 和 输出 镜像 名 称 作为 参数 。 


$ docker commit <container id> <new image name> 
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要 保存 容器 的 快照 时 , 这 种 方法 很 有 用 , 但 将 镜像 从 系统 中 删除 后 ， 重 新 创建 镜像 的 操作 步 
又 也 将 丢失 。 


一 种 更 佳 的 镜像 创建 方式 是 使 用 Dockerfile。Dockerfile 是 一 个 文本 文件 , 提供 了 从 另 一 个 镜 
像 开 始 构建 新 镜像 的 指令 。 下 面 来 看 看 前 一 章 中 用 来 搭建 支持 Jpyter notebook 的 PySpark 环境 
的 Dockerfile 的 内 容 。 


每 个 Dockerfile 都 需要 一 个 起 始 镜像 ， 这 可 使 用 命令 FROM 来 指定 。 在 这 个 示例 中 ， 起 始 镜 
像 为 jupyter/scipy-notebook， 这 可 从 DockerHub 获得 。 


指定 起 始 镜像 后 ， 就 可 开始 使 用 一 系列 RUN 和 ENV 命令 来 执行 shell 命令 ， 以 安装 包 以 及 执 
行 其 他 配置 。 在 下 面 的 示例 中 ; 安装 了 Java 运行 时 环境 (openjdk-7-jre-headless )、 下 载 
了 Spark 并 设置 了 相关 的 环境 变量 。 要 指定 接 下 来 的 命令 由 哪个 用 户 执行 ， 可 使 用 USER 指令 。 
FROM jupyter/scipy-notebook 


MAINTAINER Jupyter Project <jupyter@googlegroups.com> 
USER root 









































# Spark 依赖 
ENV APACHE_SPARK_VERSION 2.0.2 
RUN apt-get -~y update && 
apt-get install -~y --no-install-recommends 
openjdk-7-jre-headless && 
apt-get clean && 
rm -rf /var/lib/apt/lists/* 
RUN cd /tmp && 
wget -GdG http://d3kbcgqa49mib13.cloudfront.net/spark- 
$ {APACHE_SPARK_VERSION} -bin-hadoop2.6.tgz &&e 
echo "ca39ac3edd216a4d568b316c3af00199 
b77a52d05ecf4f9698da2bae37be998a 
*spark-s$ {APACHE_SPARK_VERSION}-bin-hadoop2.6.tgz" | 
sha256sum -Cc - && 
tar xzf spark-s${APACHE_SPARK_VERSION)} 
-bin-hadoop2.6.tgz -C /usr/local && 
rm spark-${APACHE_SPARK_VERSION}-bin-hadoop2.6.tgz 
RUN cd /usr/local && ln -s spark-${APACHE_SPARK_VERSION} 
-bin-hadoop2.6 spark 


# Spark 和 Mesos 配置 

ENV SPARK_HOME /usr/local/spark 

ENV PYTHONPATH S$SPARK_HOME/python:$SPARK_HOME/python/1ib/ 
py4j-0.10.3-src.zZip 

ENV SPARK_OPTS --driver-java-options=-Xms1024M 
--driver-java-options=- 
Xmx4096M --driver-java-options=-Dlog4j.logLevel=info 


USER SNB_USER 


要 使 用 Dockerfile 来 创建 镜像 ， 可 切换 到 Dockerfile 所 在 的 目录 ， 并 执行 下 面 的 命令 。 可 使 用 
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选项 -t 来 指定 用 于 存储 镜像 的 标签 ( tag ) .下面 的 命令 使 用 前 面 的 Dockerfile 创建 一 个 名 为 byspark 
的 镜像 。 


$ docker build -t pyspark . 


这 个 命令 将 自动 获取 起 始 镜像 jupyter/scipy-notebook， 并 生成 一 个 名 为 pyspark 的 
新 镜像 。 





9.4 持续 集成 


为 确保 应 用 程序 中 在 每 个 开发 迭代 中 都 没有 bug， 持 续集 成 是 一 种 绝 佳 方式 。 持 续集 成 背后 
的 主要 理念 是 ， 非 常 频繁 地 运行 项 目的 测试 套件 ， 这 通常 是 在 一 台独 立 的 构建 服务 器 上 进行 的 ， 
该 服务 器 直接 从 主 项 目 仓 库 获 了 到 《〈pull ) 代码 。 


要 搭建 构建 服务 器 ， 可 在 一 台 计 算 机 上 手动 安装 Jenkins 、Buildbot、Drone 等 软件 。 这 是 一 
种 便利 且 价 格 低廉 的 解决 方案 ， 对 小 型 团队 和 私有 项 目 来 说 尤其 如 此 。 


大 多 数 开 源 项 目 都 使 用 Travis CIL， 这 个 服务 能 够 自动 使 用 你 的 仓库 来 构建 和 测试 代码 ， 因 为 
它 与 GitHub 紧密 集成 。 当 前 ，Travis CI 向 开源 项 目 提供 了 免费 计划 。 很 多 Python 开源 项 目 都 使 
用 Travis CI 来 确保 程序 能 够 在 多 个 Python 版 本 和 平台 上 正确 地 运行 。 


在 GitHub 仓库 中 配置 Travis CI 很 容易 , 只 需 在 其 中 包含 一 个 .travis.yml 文 件 ( 其 中 包含 项 目 
构建 指令 )， 再 前 往 Travis CI 网 站 注册 一 个 账户 并 激活 这 个 仓库 。 

下 面 是 一 个 高 性 能 应 用 程序 的 .travis.yml 文件 ， 这 个 文件 包含 构建 并 运行 软件 的 指令 ， 这 些 
指令 是 使 用 YAML 语法 在 几 部 分 中 定义 的 。 

python 部 分 指定 要 使 用 哪个 版 本 的 Python。install 部 分 指定 下 载 并 安装 conga, 以 便 测 
试 和 安装 依赖 以 及 设置 项 目 。 这 部 分 并 非 必 不 可 少 (可 转 而 使 用 pip )， 但 对 高 性 能 应 用 程序 来 
说 ，conga 是 一 个 很 好 的 包 管 理 需 ， 因 为 它 包 含 很 有 用 的 原生 包 。 


script 部 分 包含 测试 项 目 所 需 的 代码 。 在 这 个 示例 中 ， 只 运行 测试 和 基准 测试 程序 。 
































































































































language: python 


install: 
# 安装 miniconda 
- sudo apt-get update 
- if [[ "STRAVIS_PYTHON_VERSION" == "2.7" ]]; then 
wget https://repo.continuum.io/miniconda/ 
Miniconda2-latest-Linux-x86_64.sh -0O miniconda.sh; 
else 








wget https://repo.continuum.io/miniconda/ 
Miniconda3-latest-Linux-x86_64.sh -0O miniconda.sh; 
Ff 
- bash miniconda.sh -b -p S$SHOME/miniconda 
- export PATH="S$HOME/miniconda/bin:sPATH" 
- hash -r 
- conda config --set always_yes yes --set changdeps1 no 
- Conda update -gq conda 
# 安装 conda 依赖 
- Conda create -q -n test-environment python= 
STRAVIS_PYTHON_VERSION numpy pandas cython pytest 
- source activate test-environment 
# 安装 pip 依赖 
- pip install pytest-benchmark 
- python setup.py install 


script: 
pytest tests/ 
pytest benchmarks/ 


每 当 有 新 代码 被 推送 ( push ) 到 GitHub 仓库 ( 或 发 生 其 他 指定 的 事件 ) 时 ，Travis CI 都 将 
启动 一 个 容 右 、 安 装 依赖 并 运行 测试 套件 。 在 开源 项 目 中 使 用 Travis CI 是 一 种 极 佳 的 做 法 ， 
为 这 样 可 不 断 提供 有 关 项 目 状态 的 反馈 ,还 可 通过 经 过 反复 考验 的 .travis.yml 文件 提供 最 新 的 安 
装 指 令 。 























9.5 ”小结 


为 软件 选择 优化 策略 是 一 项 复杂 而 微妙 的 任务 ， 具 体 选择 什么 策略 取决 于 应 用 程序 的 类 型 、 
目标 平台 和 业务 需求 。 本 章 提供 了 一 些 指南 ， 可 帮助 你 为 自己 的 应 用 程序 选择 合适 的 软件 栈 。 


有 些 高 性 能 数值 计算 应 用 程序 需要 安装 和 部 署 第 三 方 包 , 而 这 些 第 三 方 包 可 能 需要 处 理 外 部 
工具 和 原生 扩展 。 本 章 介 绍 了 如 何 组 织 Python 项 目 ， 包 括 测 试 、 基 准 测试 程序 、 文 档 、Cython 
模块 和 CC 扩展; 另外 , 还 介绍 了 持续 集成 服务 Travis CI, 你 可 使 用 它 来 不 断 地 测试 托管 在 GitHub 
上 的 项 目 。 






































最 后 介绍 了 虚拟 环境 和 Docker 容器 ， 你 可 使 用 它们 来 以 隔离 的 方式 测试 应 用 程序 、 极 大 地 
简化 部 署 工作 ， 以 及 让 多 位 开发 人 员 能 够 访问 同一 个 平台 。 
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看 完了 


如 果 您 对 本 书 内 容 有 疑问 ， 可 发 邮件 至 contact@turingbook.com， 会 有 编辑 或 作 
译 者 协助 答疑 。 也 可 访问 图 灵 社 区 ， 参 与 本 书 讨论 。 
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